Esta página de ayuda es una guía práctica . Explica conceptos o procesos utilizados por la comunidad de Wikipedia. No forma parte de las políticas o pautas de Wikipedia y puede reflejar distintos niveles de consenso . |
Vinculación y manipulación de páginas |
---|
Las páginas wiki se pueden exportar en un formato XML especial para importarlas a otra instalación de MediaWiki o utilizarlas para analizar el contenido, por ejemplo. Consulta también m:Syndication feeds para exportar toda la información excepto las páginas y consulta Help:Import para importar páginas.
Hay al menos seis formas de exportar páginas:
action=raw
. (Esto obtiene solo el wikitexto de la página y no el formato XML que se describe a continuación). Por ejemplo: https://en.wikipedia.org/w/index.php?title=Wikipedia&action=raw .. es importante utilizar /w/index.php?title=PAGENAME&action=raw
y no /wiki/PAGENAME?action=raw
(consulte Phab T126183)De forma predeterminada, solo se incluye la versión actual de una página. Opcionalmente, puede obtener todas las versiones con fecha, hora, nombre de usuario y resumen de edición.
Además, puedes copiar la base de datos SQL. Así es como se pusieron a disposición los volcados de la base de datos antes de MediaWiki 1.5 y no se explicará más aquí.
Para exportar todas las páginas de un espacio de nombres , por ejemplo.
Y por último...
Ahora puedes usar este archivo XML para realizar una importación .
Una casilla de verificación en la interfaz Special:Export permite seleccionar si se debe exportar el historial completo (todas las versiones de un artículo) o la versión más reciente de los artículos. Se devuelve un máximo de 1000 revisiones; se pueden solicitar otras revisiones como se detalla en MW:Parámetros para Special:Export.
El formato del archivo XML que recibe es el mismo en todos los aspectos. Este formato está codificado en XML Schema en http://www.mediawiki.org/xml/export-0.6.xsd. Este formato no está pensado para visualizarse en un navegador web, aunque algunos navegadores muestran el XML impreso con enlaces "+" y "-" para ver u ocultar las partes seleccionadas. Alternativamente, el código fuente XML se puede ver utilizando la función "ver código fuente" del navegador, o después de guardar el archivo XML localmente, con un programa de su elección. Si lee directamente el código fuente XML, no será difícil encontrar el wikitexto real. Si no utiliza un editor XML especial, "<" y ">" aparecen como < y >, para evitar un conflicto con las etiquetas XML; para evitar ambigüedades, "&" se codifica como "&".
En la versión actual, el formato de exportación no contiene un reemplazo XML del marcado wiki (consulte Wikipedia DTD para una propuesta anterior o Wiki Markup Language ). Solo obtiene el wikitexto tal como lo obtiene al editar el artículo. (Después de la exportación, puede usar analizadores alternativos para convertir el wikitexto a otro formato)
<mediawiki xml:lang= "es" > <page> <title> Título de la página </title> <!-- código del espacio de nombres de la página --> <ns> 0 </ns> <id> 2 </id> <!-- Si la página es una redirección, el elemento "redirect" contiene el título de la página a la que se redirecciona --> <redirect title= "Título de la página de redirección" /> <restrictions> edit=sysop:move=sysop </restrictions> <revision> <timestamp> 2001-01-15T13:15:00Z </timestamp> <contributor> <username> Foobar </username> <id> 65536 </id> </contributor> <comment> ¡ Solo tengo una cosa que decir ! </comment> <text> Un montón de [[texto]] aquí. </text> <minor /> </revision> <revision> <timestamp> 2001-01-15T13:10:27Z </timestamp> <contributor><ip> 10.0.0.2 </ip></contributor> <comment> ¡nuevo! </comment> <text> Una [[revisión]] anterior . </text> </revision> <revision> <!-- ejemplo de revisión eliminada --> <id> 4557485 </id> <parentid> 1243372 </parentid> <timestamp> 2010-06-24T02:40:22Z </timestamp> <contributor delete= "eliminado" /> <model> wikitext </model> <format> text/x-wiki </format> <text delete= "eliminado" /> <sha1/> </revision> </page> <page> <title> Discusión: Título de la página </title> <revision> <timestamp> 2001-01-15T14:03:00Z </timestamp> <contributor><ip> 10.0.0.2 </ip></contributor> <comment> hey </comment> <text> ¿ POR QUÉ BLOQUEASTE LA PÁGINA??!!! Estaba editando a ese idiota </text> </revision> </page> </mediawiki>
A continuación se muestra una versión breve y no oficial de la definición del tipo de documento del formato. Si no sabe qué es una DTD, ignórela.
<!ELEMENT mediawiki ( siteinfo ?, page *) > <!-- version contiene el número de versión del formato (actualmente 0.3) --> <!ATTLIST mediawiki version CDATA #REQUIRED xmlns CDATA #FIXED "http://www.mediawiki.org/xml/export-0.3/" xmlns:xsi CDATA #FIXED "http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation CDATA #FIXED "http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" > <!ELEMENT siteinfo ( sitename , base , generator , case , namespaces ) > <!ELEMENT sitename ( #PCDATA ) > <!-- nombre del wiki --> <!ELEMENT base ( #PCDATA ) > <!-- URL de la página principal --> <!ELEMENT generador ( #PCDATA ) > <!-- Cadena de versión de MediaWiki --> <!ELEMENT case ( #PCDATA ) > <!-- cómo se manejan los casos en los nombres de las páginas --> <!-- valores posibles: 'first-letter' | La opción 'sensible a mayúsculas y minúsculas' 'insensible a mayúsculas y minúsculas' está reservada para el futuro --> <!ELEMENT namespaces ( namespace +) > <!-- lista de espacios de nombres y prefijos --> <!ELEMENT namespace ( #PCDATA ) > <!-- contiene prefijo de espacio de nombres --> <!ATTLIST clave de espacio de nombres CDATA #REQUIRED > <!-- número de espacio de nombres interno --> <!ELEMENT page ( title , id ?, limits ?,( revision | upload )*) > <!ELEMENT title ( #PCDATA ) > <!-- Título con prefijo de espacio de nombres --> <!ELEMENT id ( #PCDATA ) > <!ELEMENT limits ( #PCDATA ) > <!-- restricciones de página opcionales --> <!ELEMENTO revisión ( id ?, marca de tiempo , colaborador , menor ?, comentario , texto ) > <!ELEMENT timestamp ( #PCDATA ) > <!-- según ISO8601 --> <!ELEMENT menor EMPTY > <!-- bandera menor --> <!ELEMENT comentario ( #PCDATA ) > <!ELEMENT texto ( #PCDATA ) > <!-- Sintaxis wiki --> <!ATTLIST texto xml:espacio CDATA #FIXED "preservar" > <!ELEMENT colaborador (( nombreusuario , id ) | ip ) > <!ELEMENT nombreusuario ( #PCDATA ) > <!ELEMENT ip ( #PCDATA ) > <!ELEMENT upload ( timestamp , colaborador , comentario ?, nombrearchivo , origen , tamaño ) > <!ELEMENT nombrearchivo ( #PCDATA ) > <!ELEMENT origen ( #PCDATA ) > <!ELEMENT tamaño ( #PCDATA ) >
Muchas herramientas pueden procesar el XML exportado. Si procesa una gran cantidad de páginas (por ejemplo, un archivo volcado completo), probablemente no podrá obtener el documento en la memoria principal, por lo que necesitará un analizador basado en SAX u otros métodos controlados por eventos.
También puede utilizar expresiones regulares para procesar directamente partes del código XML. Se ejecutan rápidamente, pero son difíciles de mantener.
Enumere aquí los métodos y herramientas para procesar la exportación XML:
/mediawiki/siteinfo/namespaces/espacio de nombres