Wikipedia:Descarga de base de datos

Descarga de volcados de la base de datos wiki

Wikipedia ofrece copias gratuitas de todo el contenido disponible a los usuarios interesados. Estas bases de datos se pueden utilizar para duplicación , uso personal, copias de seguridad informales, uso sin conexión o consultas a bases de datos (como para Wikipedia:Mantenimiento ). Todo el contenido de texto está licenciado bajo la Licencia Creative Commons Atribución-CompartirIgual 3.0 (CC-BY-SA), y la mayoría está además licenciada bajo la Licencia de Documentación Libre de GNU (GFDL). [1] Las imágenes y otros archivos están disponibles bajo diferentes términos , como se detalla en sus páginas de descripción. Para obtener nuestros consejos sobre cómo cumplir con estas licencias, consulte Wikipedia:Derechos de autor .

Lectores de Wikipedia sin conexión

Algunas de las muchas formas de leer Wikipedia sin conexión:

  • Kiwix : (§ Kiwix) - índice de imágenes (2024)
  • XOWA : (§ XOWA) - índice de imágenes (2015)
  • WikiTaxi: § WikiTaxi (para Windows)
  • aarddict: § Diccionario Aard / Aard 2
  • BzReader: § BzReader y MzReader (para Windows)
  • WikiFiltro: § WikiFiltro
  • Wikipedia sobre Rockbox: § Wikiviewer para Rockbox
  • Artículos seleccionados de Wikipedia como documento impreso: Ayuda:Impresión

Algunas de ellas son aplicaciones móviles (véase la " lista de aplicaciones móviles de Wikipedia ").

¿Dónde consigo los dumps?

Wikipedia en inglés

  • Volcados de cualquier proyecto de la Fundación Wikimedia: dumps.wikimedia.org y el Archivo de Internet
  • Volcados de Wikipedia en inglés en SQL y XML: dumps.wikimedia.org/enwiki/ y el Archivo de Internet
    • Descargue el volcado de datos utilizando un cliente BitTorrent (la descarga de torrents tiene muchos beneficios y reduce la carga del servidor, ahorrando costos de ancho de banda).
    • pages-articles-multistream.xml.bz2 – Solo revisiones actuales, sin páginas de discusión o de usuario; esto es probablemente lo que desea y tiene más de 19 GB comprimido (se expande a más de 86 GB cuando se descomprime).
    • pages-meta-current.xml.bz2 – Solo revisiones actuales, todas las páginas (incluida la discusión)
    • abstract.xml.gz – resúmenes de páginas
    • all-titles-in-ns0.gz – Solo títulos de artículos (con redirecciones)
    • También están disponibles los archivos SQL para las páginas y los enlaces.
    • Todas las revisiones, todas las páginas: estos archivos se expanden a varios terabytes de texto. Descárguelos solo si sabe que puede manejar esta cantidad de datos. Vaya a Últimos volcados y busque todos los archivos que tengan "pages-meta-history" en su nombre.
  • Para descargar un subconjunto de la base de datos en formato XML, como una categoría específica o una lista de artículos, consulte: Special:Export , cuyo uso se describe en Help:Export .
  • Software de interfaz de usuario Wiki: MediaWiki [1].
  • Software de back-end de base de datos: MySQL .
  • Volcados de imágenes: ver a continuación.

¿Debería adquirir multitransmisión?

TL;DR : ¡OBTÉN LA VERSIÓN MULTISTREAM! (y el archivo de índice correspondiente, pages-articles-multistream-index.txt.bz2 )

pages-articles.xml.bz2 y pages-articles-multistream.xml.bz2 contienen el mismo contenido xml . Por lo tanto, si descomprime cualquiera de ellos, obtendrá los mismos datos. Pero con multistream, es posible obtener un artículo del archivo sin descomprimirlo todo. Su lector debería encargarse de esto por usted; si su lector no lo admite, funcionará de todos modos, ya que multistream y non-multistream contienen el mismo xml . La única desventaja de multistream es que es marginalmente más grande. Puede verse tentado a obtener el archivo non-multistream más pequeño, pero esto será inútil si no lo descomprime. Y se descomprimirá a ~5-10 veces su tamaño original. Ahorrar dinero no es una buena idea. Obtenga multistream.

TENGA EN CUENTA QUE el archivo de volcado multistream contiene múltiples 'streams' bz2 (encabezado, cuerpo, pie de página bz2) concatenados en un solo archivo, a diferencia del archivo original que contiene un solo stream. Cada 'stream' (o en realidad, archivo) independiente en el volcado multistream contiene 100 páginas, excepto posiblemente la última.

¿Cómo utilizar multistream?

Para multistream, puede obtener un archivo de índice, pages-articles-multistream-index.txt.bz2 . El primer campo de este índice es la cantidad de bytes que se buscarán en el archivo comprimido pages-articles-multistream.xml.bz2 , el segundo es el ID del artículo y el tercero, el título del artículo.

Corte una pequeña parte del archivo con dd utilizando el desplazamiento de bytes que se encuentra en el índice. Luego, puede descomprimirlo con bzip2 o usar bzip2recover y buscar el ID del artículo en el primer archivo.

Consulte https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor para obtener información sobre dichos archivos multistream y sobre cómo descomprimirlos con Python; consulte también https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt y archivos relacionados para un viejo juguete funcional.

Otros idiomas

En el directorio dumps.wikimedia.org encontrará los archivos SQL y XML más recientes de los proyectos, no solo en inglés. Los subdirectorios reciben el nombre del código de idioma y del proyecto correspondiente. Existen otros directorios (por ejemplo, simple, nostalgia) con la misma estructura. Estos archivos también están disponibles en Internet Archive.

¿Dónde están los archivos cargados (imagen, audio, vídeo, etc.)?

Las imágenes y otros medios cargados están disponibles desde los servidores de réplica, además de ser servidos directamente desde los servidores de Wikimedia. La descarga masiva está disponible (a partir de septiembre de 2013) desde los servidores de réplica, pero no se ofrece directamente desde los servidores de Wikimedia. Vea la lista de servidores de réplica actuales. Debe sincronizar desde el servidor de réplica, luego completar las imágenes faltantes desde upload.wikimedia.org; cuando descargue desde el servidor de réplica, upload.wikimedia.orgdebe limitarse a 1 error de caché por segundo (puede verificar los encabezados de una respuesta para ver si fue un acierto o un error y luego reducir la velocidad cuando obtenga un error) y no debe usar más de una o dos conexiones HTTP simultáneas. En cualquier caso, asegúrese de tener una cadena de agente de usuario precisa con información de contacto (dirección de correo electrónico) para que los operadores puedan comunicarse con usted si hay un problema. Debe obtener sumas de verificación de la API de mediawiki y verificarlas. La página de Etiqueta de API contiene algunas pautas, aunque no todas se aplican (por ejemplo, debido a que upload.wikimedia.org no es MediaWiki, no hay ningún maxlagparámetro).

A diferencia de la mayoría de los textos de los artículos, las imágenes no necesariamente tienen licencia GFDL y CC-BY-SA-3.0. Pueden tener una de las muchas licencias gratuitas , ser de dominio público , considerarse de uso legítimo o incluso infringir los derechos de autor (que deberían eliminarse ). En particular, el uso de imágenes de uso legítimo fuera del contexto de Wikipedia o de obras similares puede ser ilegal. Las imágenes con la mayoría de las licencias requieren un crédito y posiblemente otra información de derechos de autor adjunta. Esta información se incluye en las páginas de descripción de las imágenes, que forman parte de los volcados de texto disponibles en dumps.wikimedia.org. En conclusión, descargue estas imágenes bajo su propio riesgo (Legal).

Cómo manejar archivos comprimidos

Los archivos de volcado comprimidos se comprimen significativamente, por lo que después de descomprimirlos ocuparán una gran cantidad de espacio en el disco. Se describe una gran lista de programas de descompresión en comparación con los archivadores de archivos . Los siguientes programas en particular se pueden utilizar para descomprimir archivos bzip2, .bz2 , .zip y .7z .

Ventanas

A partir de Windows XP , un programa de descompresión básico permite la descompresión de archivos zip. [2] [3] Entre otros, se pueden utilizar los siguientes para descomprimir archivos bzip2.

  • bzip2 (línea de comandos) (desde aquí) está disponible de forma gratuita bajo una licencia BSD.
  • 7-Zip está disponible de forma gratuita bajo una licencia LGPL .
  • WinRAR
  • WinZip
Macintosh (Mac)
  • macOS viene con la herramienta de línea de comandos bzip2.
GNU/ Linux
  • La mayoría de las distribuciones GNU/Linux vienen con la herramienta de línea de comandos bzip2.
Distribución de software de Berkeley (BSD)
  • Algunos sistemas BSD incluyen la herramienta de línea de comandos bzip2 como parte del sistema operativo. Otros, como OpenBSD , la proporcionan como un paquete que debe instalarse primero.
Notas
  1. Es posible que algunas versiones anteriores de bzip2 no puedan manejar archivos de más de 2 GB, así que asegúrese de tener la última versión si experimenta algún problema.
  2. Algunos archivos más antiguos están comprimidos con gzip, que es compatible con PKZIP (el formato más común de Windows).

Cómo manejar archivos grandes

A medida que los archivos aumentan de tamaño, también aumenta la probabilidad de que superen algún límite de un dispositivo informático. Cada sistema operativo, sistema de archivos, dispositivo de almacenamiento duro y software (aplicación) tiene un límite máximo de tamaño de archivo. Es probable que cada uno de ellos tenga un máximo diferente, y el límite más bajo de todos ellos se convertirá en el límite de tamaño de archivo para un dispositivo de almacenamiento.

Cuanto más antiguo sea el software de un dispositivo informático, más probable será que tenga un límite de archivos de 2 GB en algún lugar del sistema. Esto se debe a que el software más antiguo utiliza números enteros de 32 bits para la indexación de archivos, lo que limita el tamaño de los archivos a 2^31 bytes (2 GB) (para números enteros con signo) o 2^32 (4 GB) (para números enteros sin signo). Las bibliotecas de programación C más antiguas tienen este límite de 2 o 4 GB, pero las bibliotecas de archivos más nuevas se han convertido a números enteros de 64 bits, por lo que admiten tamaños de archivo de hasta 2^63 o 2^64 bytes (8 o 16 EB ).

Antes de comenzar a descargar un archivo grande, verifique el dispositivo de almacenamiento para asegurarse de que su sistema de archivos pueda soportar archivos de un tamaño tan grande, verifique la cantidad de espacio libre para asegurarse de que pueda contener el archivo descargado y asegúrese de que los dispositivos con los que usará el almacenamiento puedan leer el sistema de archivos elegido.

Límites del sistema de archivos

Existen dos límites para un sistema de archivos: el límite de tamaño del sistema de archivos y el límite del sistema de archivos. En general, dado que el límite de tamaño de archivo es menor que el límite del sistema de archivos, los límites mayores del sistema de archivos son un punto discutible. Un gran porcentaje de usuarios asume que pueden crear archivos hasta el tamaño de su dispositivo de almacenamiento, pero se equivocan en su suposición. Por ejemplo, un dispositivo de almacenamiento de 16 GB formateado como sistema de archivos FAT32 tiene un límite de archivo de 4 GB para cualquier archivo individual. A continuación, se incluye una lista de los sistemas de archivos más comunes; consulte Comparación de sistemas de archivos para obtener información detallada adicional.

Ventanas
  • FAT16 admite archivos de hasta 4 GB . FAT16 es el formato de fábrica de las unidades USB más pequeñas y de todas las tarjetas SD de 2 GB o menos.
  • FAT32 admite archivos de hasta 4 GB. FAT32 es el formato de fábrica de las unidades USB más grandes y de todas las tarjetas SDHC de 4 GB o más.
  • exFAT admite archivos de hasta 127 PB . exFAT es el formato de fábrica de todas las tarjetas SDXC , pero es incompatible con la mayoría de las versiones de UNIX debido a problemas de licencia.
  • NTFS admite archivos de hasta 16 TB . NTFS es el sistema de archivos predeterminado para las computadoras Windows modernas , incluidos Windows 2000, Windows XP y todos sus sucesores hasta la fecha. Las versiones posteriores a Windows 8 pueden admitir archivos más grandes si el sistema de archivos está formateado con un tamaño de clúster más grande.
  • ReFS admite archivos de hasta 16 EB .
Macintosh (Mac)
  • HFS Plus (HFS+) (también conocido como Mac OS Extended) admite archivos de hasta 8 EiB (8 exbibytes) (2^63 bytes). [4] Un exbibyte es similar a un exabyte . HFS Plus es compatible con macOS 10.2+ e iOS . Era el sistema de archivos predeterminado para las computadoras macOS antes del lanzamiento de macOS High Sierra en 2017, cuando fue reemplazado como predeterminado por Apple File System , APFS .
  • APFS admite archivos de hasta 8 exbibytes (2^63 bytes). [4]
Linux
  • Ext2 y ext3 admiten archivos de hasta 16 GB, pero hasta 2 TB con tamaños de bloque más grandes. Consulte https://users.suse.com/~aj/linux_lfs.html para obtener más información.
  • ext4 admite archivos de hasta 16 TB, utilizando un tamaño de bloque de 4 KB. (límite eliminado en e2fsprogs-1.42 (2012))
  • XFS admite archivos de hasta 8 EB.
  • ReiserFS admite archivos de hasta 1 EB, 8 TB en sistemas de 32 bits.
  • JFS admite archivos de hasta 4 PB.
  • Btrfs admite archivos de hasta 16 EB.
  • NILFS admite archivos de hasta 8 EB.
  • YAFFS 2 admite archivos de hasta 2 GB
BSD libre
  • ZFS admite archivos de hasta 16 EB.
FreeBSD y otros BSD

Límites del sistema operativo

Cada sistema operativo tiene límites internos para el tamaño de los archivos y de las unidades, que son independientes del sistema de archivos o del medio físico. Si el sistema operativo tiene límites inferiores a los del sistema de archivos o del medio físico, entonces los límites del sistema operativo serán los límites reales.

Ventanas
  • Windows 95, 98 y ME tienen un límite de 4 GB para todos los tamaños de archivo.
  • Windows XP tiene un límite de 16 TB para todos los tamaños de archivos.
  • Windows 7 tiene un límite de 16 TB para todos los tamaños de archivos.
  • Windows 8, 10 y Server 2012 tienen un límite de 256 TB para todos los tamaños de archivo.
Linux
  • Los sistemas con kernel 2.4.x de 32 bits tienen un límite de 2 TB para todos los sistemas de archivos.
  • Los sistemas kernel 2.4.x de 64 bits tienen un límite de 8 EB para todos los sistemas de archivos.
  • Los sistemas con kernel 2.6.x de 32 bits sin la opción CONFIG_LBD tienen un límite de 2 TB para todos los sistemas de archivos.
  • Los sistemas con kernel 2.6.x de 32 bits con la opción CONFIG_LBD y todos los sistemas con kernel 2.6.x de 64 bits tienen un límite de 8 ZB para todos los sistemas de archivos. [5]

Android : Android se basa en Linux, lo que determina sus límites básicos.

  • Almacenamiento interno:
    • Android 2.3 y versiones posteriores utilizan el sistema de archivos ext4 . [6]
    • Android 2.2 y anteriores utilizan el sistema de archivos YAFFS 2.
  • Ranuras de almacenamiento externo:
    • Todos los dispositivos Android deben admitir los sistemas de archivos FAT16, FAT32, ext2.
    • Android 2.3 y posteriores admiten el sistema de archivos ext4.
Apple iOS (ver Lista de modelos de iPhone )
  • Todos los dispositivos son compatibles con HFS Plus (HFS+) para el almacenamiento interno. Ningún dispositivo tiene ranuras de almacenamiento externo. Los dispositivos con la versión 10.3 o posterior ejecutan el sistema de archivos de Apple, que admite un tamaño máximo de archivo de 8 EB.

Consejos

Detectar archivos corruptos

Es útil comprobar las sumas MD5 (que se proporcionan en un archivo en el directorio de descarga) para asegurarse de que la descarga se haya completado y sea precisa. Esto se puede comprobar ejecutando el comando "md5sum" en los archivos descargados. Dados sus tamaños, el cálculo puede tardar un tiempo. Debido a los detalles técnicos de cómo se almacenan los archivos, los tamaños de los archivos pueden informarse de forma diferente en diferentes sistemas de archivos, por lo que no son necesariamente fiables. Además, es posible que se hayan producido daños durante la descarga, aunque esto es poco probable.

Linux y Unix

Si parece que estás alcanzando el límite de 2 GB, prueba a usar la versión 1.10 o posterior de wget , la versión 7.11.1-1 o posterior de cURL , o una versión reciente de lynx (usando -dump). También puedes reanudar las descargas (por ejemplo, wget -c).

¿Por qué no simplemente recuperar datos de?wikipedia.org¿en tiempo de ejecución?

Supongamos que está creando un programa que, en determinados puntos, muestra información procedente de Wikipedia. Si desea que su programa muestre la información de una forma distinta a la que se puede ver en la versión en vivo, probablemente necesitará el código wiki que se utiliza para ingresarlo, en lugar del HTML final.

Además, si quieres obtener todos los datos, probablemente quieras transferirlos de la forma más eficiente posible. Los servidores de wikipedia.org necesitan hacer un gran trabajo para convertir el código wiki en HTML. Eso consume mucho tiempo tanto para ti como para los servidores de wikipedia.org, por lo que simplemente rastrear todas las páginas no es la mejor opción.

Para acceder a cualquier artículo en XML, de uno en uno, acceda a Especial:Exportar/Título del artículo .

Lea más sobre esto en Special:Export .

Tenga en cuenta que los espejos en vivo de Wikipedia que se cargan dinámicamente desde los servidores de Wikimedia están prohibidos. Consulte Wikipedia:Mirrors and forks .

Por favor, no utilice un rastreador web

No utilice un rastreador web para descargar una gran cantidad de artículos. El rastreo agresivo del servidor puede provocar una ralentización drástica de Wikipedia.

Ejemplo de correo electrónico bloqueado por un rastreador

La dirección IP nnn.nnn.nnn.nnn estaba recuperando hasta 50 páginas por segundo de las direcciones de wikipedia.org. Algo así como un retraso de al menos un segundo entre solicitudes es razonable. Por favor, respete esa configuración. Si debe excederla un poco, hágalo solo durante los horarios de menor actividad que se muestran en nuestros gráficos de carga del sitio en stats.wikimedia.org/EN/ChartsWikipediaZZ.htm . Vale la pena señalar que rastrear todo el sitio a un hit por segundo llevará varias semanas. La IP de origen está bloqueada ahora o lo estará en breve. Por favor, póngase en contacto con nosotros si desea desbloquearla. Por favor, no intente eludirla: simplemente bloquearemos todo su rango de IP.
Si desea obtener información sobre cómo obtener nuestro contenido de manera más eficiente, ofrecemos una variedad de métodos, incluidos volcados de bases de datos semanales que puede cargar en MySQL y rastrear localmente a la velocidad que le resulte conveniente. También hay herramientas disponibles que lo harán por usted con la frecuencia que desee una vez que tenga la infraestructura en su lugar.
En lugar de responder por correo electrónico, quizás prefieras visitar #mediawiki connect en irc.libera.chat para discutir tus opciones con nuestro equipo.

Realizar consultas SQL en el volcado de base de datos actual

Puede realizar consultas SQL en el volcado de base de datos actual utilizando Quarry (como reemplazo de la página Special:Asksql deshabilitada ).

Esquema de base de datos

Esquema SQL

Véase también: mw:Manual:Diseño de la base de datos

El archivo sql utilizado para inicializar una base de datos MediaWiki se puede encontrar aquí.

Esquema XML

El esquema XML para cada volcado se define en la parte superior del archivo y se describe en la página de ayuda de exportación de MediaWiki.

Ayuda a analizar archivos volcados para su uso en scripts

  • Wikipedia: mesa de ayuda informática/ParseMediaWikiDump describe la biblioteca Perl Parse::MediaWikiDump, que puede analizar volcados XML.
  • El preprocesador de Wikipedia (wikiprep.pl) es un script de Perl que preprocesa volcados de XML sin procesar y crea tablas de enlaces, jerarquías de categorías, recopila texto de anclaje para cada artículo, etc.
  • El analizador de volcados de SQL de Wikipedia es una biblioteca .NET para leer volcados de MySQL sin la necesidad de utilizar la base de datos MySQL
  • WikiDumpParser: una biblioteca .NET Core para analizar los volcados de bases de datos.
  • Dictionary Builder es un programa de Rust que puede analizar volcados XML y extraer entradas en archivos
  • Scripts para analizar volcados de Wikipedia: scripts basados ​​en Python para analizar archivos sql.gz de volcados de Wikipedia.
  • parse-mediawiki-sql: una biblioteca de Rust para analizar rápidamente los archivos de volcado de SQL con una asignación mínima de memoria
  • gitlab.com/tozd/go/mediawiki – un paquete Go que proporciona utilidades para procesar volcados de Wikipedia y Wikidata.

Ejecución de Hadoop MapReduce en el volcado de base de datos actual de Wikipedia

Puede realizar consultas Hadoop MapReduce en el volcado de base de datos actual, pero necesitará una extensión de InputRecordFormat para que cada <page> </page> sea una única entrada de mapeador. Hay disponible un conjunto funcional de métodos Java (jobControl, mapper, reducer y XmlInputRecordFormat) en Hadoop en Wikipedia.

Ayuda para importar volcados a MySQL

Ver:

  • mw:Manual:Importación de volcados XML
  • m:Volcados de datos

Volcados HTML de Wikimedia Enterprise

Como parte de Wikimedia Enterprise se publica un espejo parcial de los archivos HTML. Los archivos HTML se generan para un conjunto específico de espacios de nombres y wikis, y luego se ponen a disposición del público para su descarga. Cada archivo HTML resultante consiste en un archivo tar.gz que, cuando se descomprime y descomprime, contiene un archivo, con una sola línea por artículo, en formato json. [Página principal del proyecto]

Volcados de árboles HTML estáticos para duplicación o distribución en CD

MediaWiki 1.5 incluye rutinas para convertir un wiki en HTML, lo que permite reproducir el HTML con el mismo analizador que se utiliza en un wiki en vivo. Como se indica en la página siguiente, publicar uno de estos archivos en la web sin modificarlo constituirá una violación de marca registrada. Están pensados ​​para su visualización privada en una intranet o en una instalación de escritorio.

  • Si desea diseñar un sitio web tradicional en Mediawiki y convertirlo a formato HTML, puede probar mw2html de Usuario:Connelly .
  • Si desea ayudar a desarrollar herramientas de conversión de HTML a estático, envíenos una nota en la lista de correo de desarrolladores .
  • Los volcados de HTML estáticos ahora están disponibles aquí.

Ver también:

Kiwix

Kiwix en una tableta Android

Kiwix es, con diferencia, la mayor distribución offline de Wikipedia hasta la fecha. Como lector offline, Kiwix funciona con una biblioteca de contenidos que son archivos zim: puedes elegir cualquier proyecto de Wikimedia (Wikipedia en cualquier idioma, Wiktionary , Wikisource , etc.), así como TED Talks , simulaciones interactivas de matemáticas y física de PhET , Project Gutenberg , etc.

Es gratuito y de código abierto, y actualmente está disponible para descargar en:

  • Androide
  • iOS
  • macOS
  • Windows y Windows 10 (UWP)
  • GNU/Linux

... así como extensiones para los navegadores Chrome y Firefox, soluciones de servidor, etc. Consulte el sitio web oficial para ver el portafolio completo de Kiwix.

Diccionario Aard / Aard 2

Aard Dictionary es un lector de Wikipedia sin conexión. Sin imágenes. Multiplataforma para Windows, Mac, Linux, Android y Maemo. Funciona en lectores de libros electrónicos Nook y Sony PRS-T1 rooteados.

También tiene un sucesor, Aard 2.

Wikivisor paraCaja de rock

El complemento WikiViewer para Rockbox permite ver archivos de Wikipedia convertidos en muchos dispositivos Rockbox . Requiere una compilación personalizada y la conversión de los archivos de Wikipedia siguiendo las instrucciones disponibles en http://www.rockbox.org/tracker/4755. La conversión vuelve a comprimir el archivo y lo divide en archivos de 1 GB y un archivo de índice, que deben estar todos en la misma carpeta en el dispositivo o la tarjeta micro SD.

Viejos vertederos

  • La versión estática de Wikipedia creada por Wikimedia: http://static.wikipedia.org/ 11 de febrero de 2013: aparentemente, ahora está fuera de línea. No había contenido.
  • Wiki2static (sitio inactivo desde octubre de 2005 [update]) fue un programa experimental creado por el usuario Alfio para generar archivos HTML, incluidas imágenes, función de búsqueda e índice alfabético. En el sitio vinculado se pueden descargar archivos HTML experimentales y el propio script. Como ejemplo, se utilizó para generar estas copias de los formatos WikiPedia en inglés del 24 de abril de 2004, WikiPedia simple del 1 de mayo de 2004 (antigua base de datos) y WikiPedia en inglés del 24 de julio de 2004, WikiPedia simple del 24 de julio de 2004, WikiPedia en francés del 27 de julio de 2004 (nuevo formato). BozMo utiliza una versión para generar copias estáticas periódicas en una referencia fija (sitio inactivo desde octubre de 2017).

Generación dinámica de HTML a partir de un volcado de base de datos XML local

En lugar de convertir un archivo de volcado de base de datos en muchos fragmentos de HTML estático, también se puede utilizar un generador de HTML dinámico. Navegar por una página wiki es como navegar por un sitio wiki, pero el contenido se obtiene y se convierte desde un archivo de volcado local a petición del navegador.

XOWA

XOWA es una aplicación gratuita de código abierto que permite descargar Wikipedia a un ordenador. ¡Accede a toda la Wikipedia sin conexión a Internet! Actualmente se encuentra en fase beta de desarrollo, pero es funcional. Está disponible para descargar aquí.

Características

  • Muestra todos los artículos de Wikipedia sin conexión a Internet.
  • Descargue una copia completa y reciente de Wikipedia en inglés.
  • Muestra más de 5,2 millones de artículos en formato HTML completo.
  • Muestra imágenes dentro de un artículo. Accede a más de 3,7 millones de imágenes mediante las bases de datos de imágenes sin conexión.
  • Funciona con cualquier wiki de Wikimedia, incluyendo Wikipedia, Wiktionary, Wikisource, Wikiquote, Wikivoyage (también algunos volcados que no sean wmf)
  • Funciona con cualquier wiki en idioma distinto del inglés, como Wikipedia en francés, Wikisource en alemán, Wikivoyage en holandés, etc.
  • Funciona con otras wikis especializadas como Wikidata, Wikimedia Commons, Wikispecies o cualquier otro volcado generado por MediaWiki.
  • Configura más de 660 wikis diferentes, entre las que se incluyen:
    • Wikcionario en inglés
    • Wikisource en inglés
    • Cita wiki en inglés
    • Wikivoyage en inglés
    • Wikis en otros idiomas, como Wikcionario en francés, Wikisource en alemán y Wikivoyage en holandés
    • Wikidatos
    • Wikimedia Commons
    • Wikiespecies
    • ...y muchos más!
  • Actualiza tu wiki cuando quieras, utilizando las copias de seguridad de la base de datos de Wikimedia.
  • Navega entre wikis sin conexión. Haz clic en "Buscar esta palabra en Wikcionario" y visualiza la página al instante en Wikcionario.
  • Editar artículos para eliminar vandalismo o errores.
  • Instálelo en una tarjeta de memoria flash para poder llevarlo a otras máquinas.
  • Ejecutable en Windows, Linux y Mac OS X.
  • Ver el HTML de cualquier página wiki.
  • Busque cualquier página por título utilizando un cuadro de búsqueda similar a Wikipedia.
  • Explorar páginas por orden alfabético utilizando Special:AllPages.
  • Encuentra una palabra en una página.
  • Acceda a un historial de páginas vistas.
  • Marca tus páginas favoritas.
  • Descarga imágenes y otros archivos a pedido (cuando está conectado a Internet)
  • Configura Wikipedia simple en menos de 5 minutos
  • Se puede personalizar en muchos niveles: desde atajos de teclado hasta diseños HTML y opciones internas.

Características principales

  1. Búsqueda muy rápida
  2. Búsqueda basada en palabras clave (en realidad, palabras del título)
  3. La búsqueda produce múltiples artículos posibles: puedes elegir entre ellos
  4. Representación basada en LaTeX para fórmulas matemáticas
  5. Requisitos mínimos de espacio: el archivo .bz2 original más el índice
  6. Instalación muy rápida (en cuestión de horas) en comparación con cargar el volcado en MySQL

Filtro Wiki

WikiFilter es un programa que te permite explorar más de 100 archivos de volcado sin visitar un sitio Wiki.

Requisitos del sistema de WikiFilter

  • Una versión reciente de Windows (Windows XP está bien; Windows 98 y ME no funcionarán porque no tienen soporte para NTFS)
  • Un poco de espacio en el disco duro (para la instalación necesitarás alrededor de 12 a 15 gigabytes; después solo necesitarás alrededor de 10 gigabytes)

Cómo configurar WikiFilter

  1. Comience a descargar un archivo de volcado de base de datos de Wikipedia, como un archivo de volcado de Wikipedia en inglés. Es mejor utilizar un administrador de descargas como GetRight para poder reanudar la descarga del archivo incluso si su computadora falla o se apaga durante la descarga.
  2. Descargue XAMPPLITE desde [2] (debe obtener la versión 1.5.0 para que funcione). Asegúrese de seleccionar el archivo cuyo nombre termine con .exe
  3. Instalarlo/extráelo a C:\XAMPPLITE.
  4. Descargue WikiFilter 2.3 desde este sitio: http://sourceforge.net/projects/wikifilter. Podrá elegir entre varios archivos para descargar, así que asegúrese de elegir la versión 2.3. Extráigala en C:\WIKIFILTER.
  5. Copie WikiFilter.so en su carpeta C:\XAMPPLITE\apache\modules.
  6. Edite su archivo C:\xampplite\apache\conf\httpd.conf y agregue la siguiente línea:
    • LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
  7. Cuando haya terminado de descargarse el archivo de Wikipedia, descomprímalo en la carpeta C:\WIKIFILTER. (Yo utilicé la versión demo de WinRAR http://www.rarlab.com/ – BitZipper http://www.bitzipper.com/winrar.html también funciona bien.)
  8. Ejecute WikiFilter (WikiIndex.exe), vaya a su carpeta C:\WIKIFILTER, arrastre y suelte el archivo XML en la ventana, haga clic en Cargar y luego en Iniciar.
  9. Una vez finalizado, salga de la ventana y vaya a la carpeta C:\XAMPPLITE. Ejecute el archivo setup_xampp.bat para configurar xampp.
  10. Cuando termine con eso, ejecute el archivo Xampp-Control.exe e inicie Apache.
  11. Vaya a http://localhost/wiki y vea si funciona
    • Si no funciona, consulte los foros.

WikiTaxi (para Windows)

WikiTaxi es un lector offline de wikis en formato MediaWiki. Permite a los usuarios buscar y navegar en wikis populares como Wikipedia, Wikiquote o WikiNews sin necesidad de estar conectados a Internet. WikiTaxi funciona bien con diferentes idiomas como inglés, alemán, turco y otros, pero tiene un problema con los sistemas de escritura de derecha a izquierda. WikiTaxi no muestra imágenes.

Requisitos del sistema de WikiTaxi

  • Cualquier versión de Windows a partir de Windows 95 o posterior. Compatibilidad con archivos grandes (superiores a 4 GB, lo que requiere un sistema de archivos exFAT) para wikis de gran tamaño (solo en inglés al momento de escribir este artículo).
  • También funciona en Linux con Wine .
  • 16 MB de RAM mínimo para el lector de WikiTaxi, 128 MB recomendados para el importador (más para velocidad).
  • Espacio de almacenamiento para la base de datos WikiTaxi. Esto requiere unos 11,7 GiB para la Wikipedia en inglés (a fecha de 5 de abril de 2011), 2 GB para la alemana y menos para otras wikis. Es probable que estas cifras aumenten en el futuro.

Uso de WikiTaxi

  1. Descargue WikiTaxi y extráigalo a una carpeta vacía. No se requiere ninguna otra instalación.
  2. Descargue el volcado de base de datos XML (*.xml.bz2) de su wiki favorita.
  3. Ejecute WikiTaxi_Importer.exe para importar el archivo volcado de la base de datos a una base de datos WikiTaxi. El importador se encarga de descomprimir el archivo volcado a medida que lo importa, así que asegúrese de ahorrar espacio en el disco y no lo descomprima antes.
  4. Cuando finalice la importación, inicie WikiTaxi.exe y abra el archivo de base de datos generado. Puede comenzar a buscar, explorar y leer de inmediato.
  5. Después de una importación exitosa, el archivo de volcado XML ya no es necesario y se puede eliminar para recuperar espacio en disco.
  6. Para actualizar un Wiki sin conexión para WikiTaxi, descargue e importe un volcado de base de datos más reciente.

Para leer WikiTaxi, solo se necesitan dos archivos: WikiTaxi.exe y la base de datos .taxi. Cópielos en cualquier dispositivo de almacenamiento (memoria USB o tarjeta de memoria) o grábelos en un CD o DVD y lleve su Wikipedia a donde quiera que vaya.

BzReader y MzReader (para Windows)

BzReader es un lector de Wikipedia sin conexión con funciones de búsqueda rápida. Convierte el texto de la wiki en HTML y no necesita descomprimir la base de datos. Requiere Microsoft .NET Framework 2.0.

MzReader de Mun206 funciona con BzReader (aunque no está afiliado a él) y permite una mejor representación del código wiki en HTML, incluida una interpretación del diseño de Monobook. Su objetivo es hacer que las páginas sean más legibles. Requiere Microsoft Visual Basic 6.0 Runtime, que no se incluye con la descarga. También requiere Inet Control e Internet Controls (Internet Explorer 6 ActiveX), que se incluyen con la descarga.

Ala de Epsom

La base de datos de Wikipedia sin conexión en formato de diccionario EPWING, que es común y un estándar industrial japonés (JIS) obsoleto en Japón, se puede leer, incluidas las imágenes en miniatura y las tablas con algunas limitaciones de representación, en cualquier sistema que tenga un lector disponible (Boookends). Hay muchos lectores gratuitos y comerciales para Windows (incluidos los móviles), Mac OS X, iOS (iPhone, iPad), Android, Unix-Linux-BSD, DOS y aplicaciones de navegador basadas en Java (EPWING Viewers).

Edificio de espejos

Espejo WP

Importante: WP-mirror no cuenta con soporte desde 2014 y se necesita la verificación de la comunidad para comprobar que realmente funciona. Consulta la página de discusión .

WP-MIRROR es una utilidad gratuita para crear un espejo de cualquier conjunto de wikis WMF. Es decir, crea una granja de wikis que el usuario puede explorar localmente. WP-MIRROR crea un espejo completo con archivos multimedia en tamaño original. WP-MIRROR está disponible para descargar.

Véase también

Referencias

  1. ^ Consulte Wikipedia:Reutilización de contenido de Wikipedia § Reutilización de texto bajo la Licencia de Documentación Libre de GNU para obtener más información sobre la compatibilidad con la GFDL.
  2. ^ "Benchmarked: ¿Cuál es el mejor formato de compresión de archivos?". How To Geek . How-To Geek, LLC . Consultado el 18 de enero de 2017 .
  3. ^ "Comprimir y descomprimir archivos". Microsoft . Microsoft . Consultado el 18 de enero de 2017 .
  4. ^ ab "Comparación de formatos de volumen". developer.apple.com . Consultado el 19 de noviembre de 2023 .
  5. ^ Compatibilidad con archivos grandes en Linux
  6. ^ Android 2.2 y anteriores utilizaban el sistema de archivos YAFFS; 14 de diciembre de 2010.
  • Descargas de Wikimedia.
  • Registros de visitas de Domas (¡lean esto!). También hay datos antiguos en Internet Archive .
  • Archivos de listas de correo de Wikimedia.
  • Usuario:Emijrp/Wikipedia Archive . Un esfuerzo por encontrar todos los datos disponibles de Wiki[mp]edia y alentar a la gente a descargarlos y guardarlos en todo el mundo.
  • Script para descargar todos los volcados de Wikipedia 7z.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Wikipedia:Database_download&oldid=1225650852"