Desarrollador(es) | |
---|---|
Lanzamiento inicial | 10 de enero de 2007 ( 10 de enero de 2007 ) |
Versión estable | DBpedia 2016-10 / 4 de julio de 2017 |
Repositorio |
|
Escrito en | |
Tipo | |
Licencia | Licencia Pública General GNU |
Sitio web | es:dbpedia.org |
DBpedia (de "DB" para " base de datos ") es un proyecto que tiene como objetivo extraer contenido estructurado de la información creada en el proyecto Wikipedia . Esta información estructurada se pone a disposición en la World Wide Web mediante OpenLink Virtuoso . [1] [2] DBpedia permite a los usuarios consultar semánticamente las relaciones y propiedades de los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados . [3]
El proyecto fue anunciado como "una de las piezas más famosas" del esfuerzo descentralizado de Linked Data por Tim Berners-Lee , uno de los pioneros de Internet . [4] En junio de 2021, DBPedia contenía más de 850 millones de triples.
El proyecto fue iniciado por personas de la Universidad Libre de Berlín y la Universidad de Leipzig [5] en colaboración con OpenLink Software, y ahora es mantenido por personas de la Universidad de Mannheim y la Universidad de Leipzig. [6] [7] El primer conjunto de datos disponible públicamente se publicó en 2007. [5] Los datos están disponibles bajo licencias gratuitas ( CC BY-SA ), lo que permite a otros reutilizar el conjunto de datos; no utiliza una licencia de datos abiertos para renunciar a los derechos sui generis de la base de datos .
Los artículos de Wikipedia se componen principalmente de texto libre, pero también incluyen información estructurada integrada en los artículos, como tablas de " infobox " (los paneles desplegables que aparecen en la parte superior derecha de la vista predeterminada de muchos artículos de Wikipedia, o al inicio de las versiones móviles ), información de categorización, imágenes, coordenadas geográficas y enlaces a páginas web externas . Esta información estructurada se extrae y se coloca en un conjunto de datos uniforme que se puede consultar.
La versión 2016-04 del conjunto de datos DBpedia describe 6,0 millones de entidades, de las cuales 5,2 millones están clasificadas en una ontología consistente , incluyendo 1,5 millones de personas, 810.000 lugares, 135.000 álbumes de música, 106.000 películas, 20.000 videojuegos, 275.000 organizaciones, 301.000 especies y 5.000 enfermedades. [8] DBpedia utiliza el Resource Description Framework (RDF) para representar la información extraída y consta de 9.500 millones de triples RDF , de los cuales 1.300 millones se extrajeron de la edición en inglés de Wikipedia y 5.000 millones de ediciones en otros idiomas. [8]
De este conjunto de datos se puede extraer información distribuida en varias páginas. Por ejemplo, la autoría de un libro se puede recopilar a partir de páginas sobre la obra o el autor. [ se necesita más explicación ]
Uno de los desafíos a la hora de extraer información de Wikipedia es que los mismos conceptos pueden expresarse utilizando diferentes parámetros en los cuadros de información y otras plantillas, como |birthplace=
y |placeofbirth=
. Debido a esto, las consultas sobre dónde nació la gente tendrían que buscar ambas propiedades para obtener resultados más completos. Como resultado, se ha desarrollado el lenguaje de mapeo de DBpedia para ayudar a mapear estas propiedades a una ontología, al tiempo que se reduce el número de sinónimos. Debido a la gran diversidad de cuadros de información y propiedades que se utilizan en Wikipedia, el proceso de desarrollo y mejora de estos mapeos se ha abierto a contribuciones públicas. [9]
La versión 2014 se publicó en septiembre de 2014. [10] Un cambio importante con respecto a las versiones anteriores fue la forma en que se extraían los textos de los resúmenes. En concreto, ejecutar un espejo local de Wikipedia y recuperar los resúmenes generados desde allí hizo que los textos extraídos fueran considerablemente más limpios. Además, se introdujo un nuevo conjunto de datos extraídos de Wikimedia Commons .
A junio de 2021, DBPedia contiene más de 850 millones de triples. [11]
DBpedia extrae información factual de las páginas de Wikipedia, lo que permite a los usuarios encontrar respuestas a preguntas en las que la información se encuentra distribuida en varios artículos de Wikipedia. Se accede a los datos mediante un lenguaje de consulta similar a SQL para RDF llamado SPARQL .
Por ejemplo, si uno estuviera interesado en la serie de manga shōjo japonesa Tokyo Mew Mew y quisiera encontrar los géneros de otras obras escritas por su ilustradora Mia Ikumi, DBpedia combina información de las entradas de Wikipedia sobre Tokyo Mew Mew , Mia Ikumi y sobre las obras de este autor, como Super Doll Licca-chan y Koi Cupid . Dado que DBpedia normaliza la información en una única base de datos, se puede realizar la siguiente consulta sin necesidad de saber exactamente qué entrada contiene cada fragmento de información, y enumerará los géneros relacionados:
PREFIJO dbprop : <http://dbpedia.org/ontology/> PREFIJO db : <http://dbpedia.org/resource/> SELECCIONAR ?who , ?WORK , ?genre DONDE { db : Tokyo_Mew_Mew dbprop : autor ?who . ?WORK dbprop : autor ?who . OPCIONAL { ?WORK dbprop : género ?genre } . }
DBpedia tiene un amplio alcance de entidades que cubren diferentes áreas del conocimiento humano . Esto lo convierte en un centro natural para conectar conjuntos de datos, donde los conjuntos de datos externos podrían vincularse a sus conceptos. [12] El conjunto de datos de DBpedia está interconectado a nivel RDF con varios otros conjuntos de datos de datos abiertos en la Web. Esto permite que las aplicaciones enriquezcan los datos de DBpedia con datos de estos conjuntos de datos. A partir de septiembre de 2013 [actualizar], hay más de 45 millones de interconexiones entre DBpedia y conjuntos de datos externos, incluidos: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , CIA World Fact Book , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF y datos del censo de EE. UU . [13] [14] La iniciativa OpenCalais de Thomson Reuters , el proyecto Linked Open Data de The New York Times , la API Zemanta [15] y DBpedia Spotlight también incluyen enlaces a DBpedia. [16] [17] [18] La BBC utiliza DBpedia para ayudar a organizar su contenido. [19] [20] Faviki utiliza DBpedia para el etiquetado semántico. [21] Samsung también incluye DBpedia en su "Plataforma de intercambio de conocimientos".
Una fuente tan rica de conocimiento estructurado entre dominios es un terreno fértil para los sistemas de inteligencia artificial . DBpedia se utilizó como una de las fuentes de conocimiento en el sistema ganador de Jeopardy! de IBM Watson [22].
Amazon ofrece un conjunto de datos públicos DBpedia que se puede integrar en las aplicaciones de Amazon Web Services . [23]
Los datos sobre los creadores de DBpedia se pueden utilizar para enriquecer las observaciones de ventas de obras de arte. [24]
La empresa de software de crowdsourcing Ushahidi construyó un prototipo de su software que aprovechaba DBpedia para realizar anotaciones semánticas en los informes generados por los ciudadanos. El prototipo incorporaba el servicio "YODIE" (Yet another Open Data Information Extraction system) [25] desarrollado por la Universidad de Sheffield , que utiliza DBpedia para realizar las anotaciones. El objetivo de Ushahidi era mejorar la velocidad y la facilidad con la que se podían validar y gestionar los informes entrantes. [26]
DBpedia Spotlight es una herramienta para anotar menciones de recursos de DBpedia en texto. Esto permite vincular fuentes de información no estructurada a la nube Linked Open Data a través de DBpedia. DBpedia Spotlight realiza la extracción de entidades con nombre , incluida la detección de entidades y la resolución de nombres (en otras palabras, la desambiguación). También se puede utilizar para el reconocimiento de entidades con nombre y otras tareas de extracción de información . DBpedia Spotlight tiene como objetivo ser personalizable para muchos casos de uso. En lugar de centrarse en unos pocos tipos de entidades, el proyecto se esfuerza por admitir la anotación de los 3,5 millones de entidades y conceptos de más de 320 clases de DBpedia. El proyecto comenzó en junio de 2010 en el Grupo de Sistemas Basados en la Web de la Universidad Libre de Berlín.
DBpedia Spotlight está disponible públicamente como un servicio web para pruebas y una API Java / Scala con licencia Apache License . La distribución DBpedia Spotlight incluye un complemento jQuery que permite a los desarrolladores anotar páginas en cualquier lugar de la Web añadiendo una línea a su página. [27] Los clientes también están disponibles en Java o PHP . [28] La herramienta maneja varios idiomas a través de su página de demostración [29] y servicios web. La internacionalización es compatible con cualquier idioma que tenga una edición de Wikipedia. [30]
Desde 2020, el proyecto DBpedia proporciona una base de datos actualizada periódicamente de ontologías accesibles desde la web escritas en el lenguaje de ontologías OWL . [31] Archivo también proporciona un esquema de calificación de cuatro estrellas para las ontologías que extrae, en función de la accesibilidad, la calidad y los criterios relacionados con la idoneidad para el uso. Por ejemplo, se evalúa el cumplimiento de SHACL para datos basados en gráficos cuando corresponde. Las ontologías también deben contener metadatos sobre sus características y especificar una licencia pública que describa sus términos de uso. [32] [33] A junio de 2021, [actualizar]la base de datos de Archivo contiene 1368 entradas.
DBpedia fue iniciada en 2007 por Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann , Richard Cyganiak y Zachary Ives. [5]
DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
Es la primera API que devuelve entidades desambiguadas vinculadas a dbPedia, Freebase, MusicBrainz y Semantic Crunchbase.
Se utiliza en muchos proyectos por una amplia variedad de razones. En la BBC la utilizamos para etiquetar contenido.