Ayuda: Exportar

Las páginas wiki se pueden exportar en un formato XML especial para importarlas a otra instalación de MediaWiki o utilizarlas para analizar el contenido, por ejemplo. Consulta también m:Syndication feeds para exportar toda la información excepto las páginas y consulta Help:Import para importar páginas.

Cómo exportar

Hay al menos seis formas de exportar páginas:

  • Pegue el nombre de los artículos en el cuadro en Especial:Exportar o utilice https://en.wikipedia.org/wiki/Special:Export/FULLPAGENAME.
  • Utilice action=raw. (Esto obtiene solo el wikitexto de la página y no el formato XML que se describe a continuación). Por ejemplo: https://en.wikipedia.org/w/index.php?title=Wikipedia&action=raw .. es importante utilizar /w/index.php?title=PAGENAME&action=rawy no /wiki/PAGENAME?action=raw(consulte Phab T126183)
  • Utilice la API para obtener datos en formato XML o JSON
  • El script de copia de seguridad dumpBackup.php vuelca todas las páginas wiki en un archivo XML. dumpBackup.php sólo funciona en MediaWiki 1.5 o posterior. Necesita tener acceso directo al servidor para ejecutar este script. Los volcados de proyectos de mediawiki están disponibles (más o menos) regularmente en http://download.wikipedia.org. Puede encontrar más ayuda en http://www.mediawiki.org/wiki/Manual:DumpBackup.php
  • Existe una interfaz OAI-PMH para recuperar periódicamente las páginas que se han modificado desde un momento determinado. Para los proyectos Wikimedia, esta interfaz no está disponible públicamente. OAI-PMH contiene un formato contenedor para los artículos exportados.
  • Utilice el marco de trabajo de Python Wikipedia Robot. No lo explicaremos aquí.

De forma predeterminada, solo se incluye la versión actual de una página. Opcionalmente, puede obtener todas las versiones con fecha, hora, nombre de usuario y resumen de edición.

Además, puedes copiar la base de datos SQL. Así es como se pusieron a disposición los volcados de la base de datos antes de MediaWiki 1.5 y no se explicará más aquí.

Uso de 'Special:Export'

Para exportar todas las páginas de un espacio de nombres , por ejemplo.

1. Obtenga los nombres de las páginas que desea exportar

  • Vaya a Especial:Todas las páginas y elija el espacio de nombres deseado.
  • Copiar la lista de nombres de páginas a un editor de texto
  • Coloque todos los nombres de páginas en líneas separadas
  • Anteponga el espacio de nombres a los nombres de las páginas (por ejemplo, 'Ayuda:Contenido'), a menos que el espacio de nombres seleccionado sea el espacio de nombres principal.

2. Realizar la exportación

  • Vaya a Especial: Exportar y pegue todos los nombres de sus páginas en el cuadro de texto, asegurándose de que no haya líneas vacías.
  • Haga clic en "Enviar consulta"
  • Guarde el XML resultante en un archivo utilizando la función de guardar de su navegador.

Y por último...

  • Abra el archivo XML en un editor de texto. Desplácese hasta la parte inferior para comprobar si hay mensajes de error .

Ahora puedes usar este archivo XML para realizar una importación .

Exportando el historial completo

Una casilla de verificación en la interfaz Special:Export permite seleccionar si se debe exportar el historial completo (todas las versiones de un artículo) o la versión más reciente de los artículos. Se devuelve un máximo de 1000 revisiones; se pueden solicitar otras revisiones como se detalla en MW:Parámetros para Special:Export.

Formato de exportación

El formato del archivo XML que recibe es el mismo en todos los aspectos. Este formato está codificado en XML Schema en http://www.mediawiki.org/xml/export-0.6.xsd. Este formato no está pensado para visualizarse en un navegador web, aunque algunos navegadores muestran el XML impreso con enlaces "+" y "-" para ver u ocultar las partes seleccionadas. Alternativamente, el código fuente XML se puede ver utilizando la función "ver código fuente" del navegador, o después de guardar el archivo XML localmente, con un programa de su elección. Si lee directamente el código fuente XML, no será difícil encontrar el wikitexto real. Si no utiliza un editor XML especial, "<" y ">" aparecen como < y >, para evitar un conflicto con las etiquetas XML; para evitar ambigüedades, "&" se codifica como "&".

En la versión actual, el formato de exportación no contiene un reemplazo XML del marcado wiki (consulte Wikipedia DTD para una propuesta anterior o Wiki Markup Language ). Solo obtiene el wikitexto tal como lo obtiene al editar el artículo. (Después de la exportación, puede usar analizadores alternativos para convertir el wikitexto a otro formato)

Ejemplo

 <mediawiki xml:lang= "es" > <page> <title> Título de la página </title> <!-- código del espacio de nombres de la página --> <ns> 0 </ns> <id> 2 </id> <!-- Si la página es una redirección, el elemento "redirect" contiene el título de la página a la que se redirecciona --> <redirect title= "Título de la página de redirección" /> <restrictions> edit=sysop:move=sysop </restrictions> <revision> <timestamp> 2001-01-15T13:15:00Z </timestamp> <contributor> <username> Foobar </username> <id> 65536 </id> </contributor> <comment> ¡ Solo tengo una cosa que decir ! </comment> <text> Un montón de [[texto]] aquí. </text> <minor /> </revision> <revision> <timestamp> 2001-01-15T13:10:27Z </timestamp> <contributor><ip> 10.0.0.2 </ip></contributor> <comment> ¡nuevo! </comment> <text> Una [[revisión]] anterior . </text> </revision> <revision> <!-- ejemplo de revisión eliminada --> <id> 4557485 </id> <parentid> 1243372 </parentid> <timestamp> 2010-06-24T02:40:22Z </timestamp> <contributor delete= "eliminado" /> <model> wikitext </model> <format> text/x-wiki </format> <text delete= "eliminado" /> <sha1/> </revision> </page> <page> <title> Discusión: Título de la página </title> <revision> <timestamp> 2001-01-15T14:03:00Z </timestamp> <contributor><ip> 10.0.0.2 </ip></contributor> <comment> hey </comment> <text> ¿ POR QUÉ BLOQUEASTE LA PÁGINA??!!! Estaba editando a ese idiota </text> </revision> </page> </mediawiki>                                                                             

DTD

A continuación se muestra una versión breve y no oficial de la definición del tipo de documento del formato. Si no sabe qué es una DTD, ignórela.

<!ELEMENT  mediawiki  ( siteinfo ?, page *) > <!-- version contiene el número de versión del formato (actualmente 0.3) --> <!ATTLIST  mediawiki  version  CDATA  #REQUIRED  xmlns  CDATA  #FIXED  "http://www.mediawiki.org/xml/export-0.3/"  xmlns:xsi  CDATA  #FIXED  "http://www.w3.org/2001/XMLSchema-instance"  xsi:schemaLocation  CDATA  #FIXED  "http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" > <!ELEMENT  siteinfo  ( sitename , base , generator , case , namespaces ) > <!ELEMENT  sitename  ( #PCDATA ) >  <!-- nombre del wiki --> <!ELEMENT  base  ( #PCDATA ) >  <!-- URL de la página principal --> <!ELEMENT  generador  ( #PCDATA ) >  <!-- Cadena de versión de MediaWiki --> <!ELEMENT  case  ( #PCDATA ) >  <!-- cómo se manejan los casos en los nombres de las páginas -->  <!-- valores posibles: 'first-letter' | La opción 'sensible a mayúsculas  y minúsculas' 'insensible a mayúsculas y minúsculas' está reservada para el futuro --> <!ELEMENT  namespaces  ( namespace +) >  <!-- lista de espacios de nombres y prefijos -->  <!ELEMENT  namespace  ( #PCDATA ) >  <!-- contiene prefijo de espacio de nombres -->  <!ATTLIST  clave de espacio de nombres  CDATA #REQUIRED > <!-- número de espacio de nombres interno --> <!ELEMENT page ( title , id ?, limits ?,( revision | upload )*) > <!ELEMENT title ( #PCDATA ) > <!-- Título con prefijo de espacio de nombres --> <!ELEMENT id ( #PCDATA ) > <!ELEMENT limits ( #PCDATA ) > <!-- restricciones de página opcionales --> <!ELEMENTO revisión ( id ?, marca de tiempo ,                  colaborador , menor ?, comentario , texto ) >  <!ELEMENT  timestamp  ( #PCDATA ) >  <!-- según ISO8601 -->  <!ELEMENT  menor  EMPTY >  <!-- bandera menor -->  <!ELEMENT  comentario  ( #PCDATA ) >  <!ELEMENT  texto  ( #PCDATA ) >  <!-- Sintaxis wiki -->  <!ATTLIST  texto  xml:espacio  CDATA  #FIXED  "preservar" > <!ELEMENT  colaborador  (( nombreusuario , id )  |  ip ) >  <!ELEMENT  nombreusuario  ( #PCDATA ) >  <!ELEMENT  ip  ( #PCDATA ) > <!ELEMENT  upload  ( timestamp , colaborador , comentario ?, nombrearchivo , origen , tamaño ) >  <!ELEMENT  nombrearchivo  ( #PCDATA ) >  <!ELEMENT  origen  ( #PCDATA ) >  <!ELEMENT  tamaño  ( #PCDATA ) >

Procesando exportación XML

Muchas herramientas pueden procesar el XML exportado. Si procesa una gran cantidad de páginas (por ejemplo, un archivo volcado completo), probablemente no podrá obtener el documento en la memoria principal, por lo que necesitará un analizador basado en SAX u otros métodos controlados por eventos.

También puede utilizar expresiones regulares para procesar directamente partes del código XML. Se ejecutan rápidamente, pero son difíciles de mantener.

Enumere aquí los métodos y herramientas para procesar la exportación XML:

  • Parse::MediaWikiDump es un módulo de Perl para procesar el archivo de volcado XML.
  • m: Procesamiento de XML de MediaWiki con STX: transformación XML basada en flujo

Detalles y consejos prácticos

  • Para determinar el espacio de nombres de una página, debe hacer coincidir su título con el prefijo definido en

/mediawiki/siteinfo/namespaces/espacio de nombres

  • Las posibles restricciones son:
    • sysop (paginas protegidas)

Véase también

Ayuda específica de Wikipedia

Retrieved from "https://en.wikipedia.org/w/index.php?title=Help:Export&oldid=1252104253"