DBpedia

Proyecto de base de datos en línea

DBpedia
Desarrollador(es)
Lanzamiento inicial10 de enero de 2007 (hace 17 años) ( 10 de enero de 2007 )
Versión estable
DBpedia 2016-10 / 4 de julio de 2017
Repositorio
  • github.com/dbpedia/
Escrito en
Tipo
LicenciaLicencia Pública General GNU
Sitio webes:dbpedia.org

DBpedia (de "DB" para " base de datos ") es un proyecto que tiene como objetivo extraer contenido estructurado de la información creada en el proyecto Wikipedia . Esta información estructurada se pone a disposición en la World Wide Web mediante OpenLink Virtuoso . [1] [2] DBpedia permite a los usuarios consultar semánticamente las relaciones y propiedades de los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados . [3]

El proyecto fue anunciado como "una de las piezas más famosas" del esfuerzo descentralizado de Linked Data por Tim Berners-Lee , uno de los pioneros de Internet . [4] En junio de 2021, DBPedia contenía más de 850 millones de triples.

Fondo

El proyecto fue iniciado por personas de la Universidad Libre de Berlín y la Universidad de Leipzig [5] en colaboración con OpenLink Software, y ahora es mantenido por personas de la Universidad de Mannheim y la Universidad de Leipzig. [6] [7] El primer conjunto de datos disponible públicamente se publicó en 2007. [5] Los datos están disponibles bajo licencias gratuitas ( CC BY-SA ), lo que permite a otros reutilizar el conjunto de datos; no utiliza una licencia de datos abiertos para renunciar a los derechos sui generis de la base de datos .

Los artículos de Wikipedia se componen principalmente de texto libre, pero también incluyen información estructurada integrada en los artículos, como tablas de " infobox " (los paneles desplegables que aparecen en la parte superior derecha de la vista predeterminada de muchos artículos de Wikipedia, o al inicio de las versiones móviles ), información de categorización, imágenes, coordenadas geográficas y enlaces a páginas web externas . Esta información estructurada se extrae y se coloca en un conjunto de datos uniforme que se puede consultar.

Conjunto de datos

La versión 2016-04 del conjunto de datos DBpedia describe 6,0 millones de entidades, de las cuales 5,2 millones están clasificadas en una ontología consistente , incluyendo 1,5 millones de personas, 810.000 lugares, 135.000 álbumes de música, 106.000 películas, 20.000 videojuegos, 275.000 organizaciones, 301.000 especies y 5.000 enfermedades. [8] DBpedia utiliza el Resource Description Framework (RDF) para representar la información extraída y consta de 9.500 millones de triples RDF , de los cuales 1.300 millones se extrajeron de la edición en inglés de Wikipedia y 5.000 millones de ediciones en otros idiomas. [8]

De este conjunto de datos se puede extraer información distribuida en varias páginas. Por ejemplo, la autoría de un libro se puede recopilar a partir de páginas sobre la obra o el autor. [ se necesita más explicación ]

Uno de los desafíos a la hora de extraer información de Wikipedia es que los mismos conceptos pueden expresarse utilizando diferentes parámetros en los cuadros de información y otras plantillas, como |birthplace=y |placeofbirth=. Debido a esto, las consultas sobre dónde nació la gente tendrían que buscar ambas propiedades para obtener resultados más completos. Como resultado, se ha desarrollado el lenguaje de mapeo de DBpedia para ayudar a mapear estas propiedades a una ontología, al tiempo que se reduce el número de sinónimos. Debido a la gran diversidad de cuadros de información y propiedades que se utilizan en Wikipedia, el proceso de desarrollo y mejora de estos mapeos se ha abierto a contribuciones públicas. [9]

La versión 2014 se publicó en septiembre de 2014. [10] Un cambio importante con respecto a las versiones anteriores fue la forma en que se extraían los textos de los resúmenes. En concreto, ejecutar un espejo local de Wikipedia y recuperar los resúmenes generados desde allí hizo que los textos extraídos fueran considerablemente más limpios. Además, se introdujo un nuevo conjunto de datos extraídos de Wikimedia Commons .

A junio de 2021, DBPedia contiene más de 850 millones de triples. [11]

Ejemplos

DBpedia extrae información factual de las páginas de Wikipedia, lo que permite a los usuarios encontrar respuestas a preguntas en las que la información se encuentra distribuida en varios artículos de Wikipedia. Se accede a los datos mediante un lenguaje de consulta similar a SQL para RDF llamado SPARQL .

Por ejemplo, si uno estuviera interesado en la serie de manga shōjo japonesa Tokyo Mew Mew y quisiera encontrar los géneros de otras obras escritas por su ilustradora Mia Ikumi, DBpedia combina información de las entradas de Wikipedia sobre Tokyo Mew Mew , Mia Ikumi y sobre las obras de este autor, como Super Doll Licca-chan y Koi Cupid . Dado que DBpedia normaliza la información en una única base de datos, se puede realizar la siguiente consulta sin necesidad de saber exactamente qué entrada contiene cada fragmento de información, y enumerará los géneros relacionados:

PREFIJO  dbprop :  <http://dbpedia.org/ontology/> PREFIJO  db :  <http://dbpedia.org/resource/> SELECCIONAR  ?who ,  ?WORK ,  ?genre  DONDE  {  db : Tokyo_Mew_Mew  dbprop : autor  ?who  .  ?WORK  dbprop : autor  ?who  .  OPCIONAL  {  ?WORK  dbprop : género  ?genre  }  . }

Casos de uso

DBpedia tiene un amplio alcance de entidades que cubren diferentes áreas del conocimiento humano . Esto lo convierte en un centro natural para conectar conjuntos de datos, donde los conjuntos de datos externos podrían vincularse a sus conceptos. [12] El conjunto de datos de DBpedia está interconectado a nivel RDF con varios otros conjuntos de datos de datos abiertos en la Web. Esto permite que las aplicaciones enriquezcan los datos de DBpedia con datos de estos conjuntos de datos. A partir de septiembre de 2013 [actualizar], hay más de 45 millones de interconexiones entre DBpedia y conjuntos de datos externos, incluidos: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , CIA World Fact Book , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF y datos del censo de EE. UU . [13] [14] La iniciativa OpenCalais de Thomson Reuters , el proyecto Linked Open Data de The New York Times , la API Zemanta [15] y DBpedia Spotlight también incluyen enlaces a DBpedia. [16] [17] [18] La BBC utiliza DBpedia para ayudar a organizar su contenido. [19] [20] Faviki utiliza DBpedia para el etiquetado semántico. [21] Samsung también incluye DBpedia en su "Plataforma de intercambio de conocimientos".

Una fuente tan rica de conocimiento estructurado entre dominios es un terreno fértil para los sistemas de inteligencia artificial . DBpedia se utilizó como una de las fuentes de conocimiento en el sistema ganador de Jeopardy! de IBM Watson [22].

Amazon ofrece un conjunto de datos públicos DBpedia que se puede integrar en las aplicaciones de Amazon Web Services . [23]

Los datos sobre los creadores de DBpedia se pueden utilizar para enriquecer las observaciones de ventas de obras de arte. [24]

La empresa de software de crowdsourcing Ushahidi construyó un prototipo de su software que aprovechaba DBpedia para realizar anotaciones semánticas en los informes generados por los ciudadanos. El prototipo incorporaba el servicio "YODIE" (Yet another Open Data Information Extraction system) [25] desarrollado por la Universidad de Sheffield , que utiliza DBpedia para realizar las anotaciones. El objetivo de Ushahidi era mejorar la velocidad y la facilidad con la que se podían validar y gestionar los informes entrantes. [26]

Foco en DBpedia

DBpedia Spotlight es una herramienta para anotar menciones de recursos de DBpedia en texto. Esto permite vincular fuentes de información no estructurada a la nube Linked Open Data a través de DBpedia. DBpedia Spotlight realiza la extracción de entidades con nombre , incluida la detección de entidades y la resolución de nombres (en otras palabras, la desambiguación). También se puede utilizar para el reconocimiento de entidades con nombre y otras tareas de extracción de información . DBpedia Spotlight tiene como objetivo ser personalizable para muchos casos de uso. En lugar de centrarse en unos pocos tipos de entidades, el proyecto se esfuerza por admitir la anotación de los 3,5  millones de entidades y conceptos de más de 320 clases de DBpedia. El proyecto comenzó en junio de 2010 en el Grupo de Sistemas Basados ​​en la Web de la Universidad Libre de Berlín.

DBpedia Spotlight está disponible públicamente como un servicio web para pruebas y una API Java / Scala con licencia Apache License . La distribución DBpedia Spotlight incluye un complemento jQuery que permite a los desarrolladores anotar páginas en cualquier lugar de la Web añadiendo una línea a su página. [27] Los clientes también están disponibles en Java o PHP . [28] La herramienta maneja varios idiomas a través de su página de demostración [29] y servicios web. La internacionalización es compatible con cualquier idioma que tenga una edición de Wikipedia. [30]

Base de datos de ontología de archivo

Desde 2020, el proyecto DBpedia proporciona una base de datos actualizada periódicamente de ontologías accesibles desde la web escritas en el lenguaje de ontologías OWL . [31] Archivo también proporciona un esquema de calificación de cuatro estrellas para las ontologías que extrae, en función de la accesibilidad, la calidad y los criterios relacionados con la idoneidad para el uso. Por ejemplo, se evalúa el cumplimiento de SHACL para datos basados ​​en gráficos cuando corresponde. Las ontologías también deben contener metadatos sobre sus características y especificar una licencia pública que describa sus términos de uso. [32] [33] A junio de 2021, [actualizar]la base de datos de Archivo contiene 1368 entradas.

Historia

DBpedia fue iniciada en 2007 por Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann , Richard Cyganiak y Zachary Ives. [5]

Véase también

Referencias

  1. ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian (septiembre de 2009). «DBpedia - Un punto de cristalización para la Web de datos» (PDF) . Web Semantics: Science, Services and Agents on the World Wide Web . 7 (3): 154–165. CiteSeerX  10.1.1.150.4898 . doi :10.1016/j.websem.2009.07.002. ISSN  1570-8268. Archivado desde el original (PDF) el 10 de agosto de 2017 . Consultado el 11 de diciembre de 2015 .
  2. ^ "Acerca de DBpedia". DBpedia . Consultado el 14 de enero de 2024 .
  3. ^ "Komplett verlinkt — Linked Data" (en alemán). 3sat . 19 de junio de 2009. Archivado desde el original el 6 de enero de 2013 . Consultado el 10 de noviembre de 2009 .
  4. ^ "Sir Tim Berners-Lee habla con Talis sobre la Web semántica". Talis. 7 de febrero de 2008. Archivado desde el original el 10 de mayo de 2013.
  5. ^ abc DBpedia: Un núcleo para una red de datos abiertos , disponible en [1], [2] o [3]
  6. ^ "Créditos". DBpedia. Archivado desde el original el 21 de septiembre de 2014. Consultado el 9 de septiembre de 2014 .
  7. ^ "Inicio". Marzo de 2024.
  8. ^ ab "¡SÍ! Lo hicimos de nuevo ;) – Nueva versión de DBpedia 2016-04". DBpedia. 19 de octubre de 2016. Consultado el 9 de enero de 2019 .
  9. ^ "Mapas de DBpedia". mappings.dbpedia.org . Consultado el 3 de abril de 2010 .
  10. ^ "Registro de cambios". DBpedia. Septiembre de 2014. Consultado el 9 de septiembre de 2014 .
  11. ^ Holze, Julia (23 de julio de 2021). «Anuncio: lanzamiento de DBpedia Snapshot 2021-06». Asociación DBpedia . Consultado el 28 de julio de 2021 .
  12. ^ E. Curry, A. Freitas y S. O'Riáin, "El papel de la curación de datos impulsada por la comunidad para las empresas", archivado el 23 de enero de 2012 en Wayback Machine en Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, págs. 25-47.
  13. ^ "Estadísticas sobre vínculos entre conjuntos de datos", SWEO Community Project: Linking Open Data on the Semantic Web , W3C , consultado el 24 de noviembre de 2009
  14. ^ "Estadísticas sobre conjuntos de datos", Proyecto comunitario SWEO: vinculación de datos abiertos en la Web semántica , W3C , consultado el 24 de noviembre de 2009
  15. ^ "API de Zemanta". dev.zemanta.com . Consultado el 26 de julio de 2021 .
  16. ^ Sandhaus, Evan; Larson, Rob (29 de octubre de 2009). "First 5,000 Tags Released to the Linked Data Cloud". The New York Times Blogs . Consultado el 10 de noviembre de 2009 .
  17. ^ "La vida en la nube de datos vinculados". opencalais.com. Archivado desde el original el 24 de noviembre de 2009. Consultado el 10 de noviembre de 2009. Wikipedia tiene un gemelo de datos vinculados llamado DBpedia . DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
  18. ^ "Zemanta habla de Linked Data con SDK y API comercial". ZDNet. Archivado desde el original el 28 de febrero de 2010. Consultado el 10 de noviembre de 2009. Zemanta apoya plenamente la iniciativa Linking Open Data . Es la primera API que devuelve entidades desambiguadas vinculadas a dbPedia, Freebase, MusicBrainz y Semantic Crunchbase.
  19. ^ "Conferencia Europea de Web Semántica 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer y Robert Lee. Los medios se encuentran con la Web Semántica - Cómo la BBC utiliza DBpedia y Linked Data para hacer conexiones". eswc2009.org. Archivado desde el original el 8 de junio de 2009. Consultado el 10 de noviembre de 2009 .
  20. ^ "BBC Learning - Open Lab - Reference". BBC. Archivado desde el original el 25 de agosto de 2009. Consultado el 10 de noviembre de 2009. Dbpedia es una versión de base de datos de Wikipedia . Se utiliza en muchos proyectos por una amplia variedad de razones. En la BBC la utilizamos para etiquetar contenido.
  21. ^ "Etiquetado semántico con Faviki". readwriteweb.com. Archivado desde el original el 29 de enero de 2010.
  22. ^ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer y Chris Welty "Building Watson: An Overview of the DeepQA Project". Archivado el 6 de noviembre de 2020 en Wayback Machine. En AI Magazine, otoño de 2010. Asociación para el Avance de la Inteligencia Artificial (AAAI).
  23. ^ "Comunidad de desarrolladores de Amazon Web Services: DBpedia". developer.amazonwebservices.com. Archivado desde el original el 13 de febrero de 2010. Consultado el 10 de noviembre de 2009 .
  24. ^ Filipiak, Dominik; Filipowska, Agata (2 de diciembre de 2015). "DBpedia en el mercado del arte". Talleres sobre sistemas de información empresarial . Apuntes de clase sobre procesamiento de información empresarial. Vol. 228. págs. 321–331. doi :10.1007/978-3-319-26762-3_28. ISBN 978-3-319-26761-6.
  25. ^ "GATE.ac.uk - applications/yodie.html". gate.ac.uk . Consultado el 11 de mayo de 2020 .
  26. ^ "ushahidi / camaradas de plataforma". GitHub . 30 de junio de 2019 . Consultado el 9 de marzo de 2020 .
  27. ^ Mendes, Pablo. «DBpedia Spotlight jQuery Plugin». Complementos jQuery . Archivado desde el original el 3 de abril de 2011. Consultado el 15 de septiembre de 2011 .
  28. ^ DiCiuccio, Rob (25 de septiembre de 2016). "Cliente PHP para DBpedia Spotlight". GitHub .
  29. ^ "Demostración de DBpedia Spotlight" . Consultado el 8 de septiembre de 2013 .
  30. ^ "Internacionalización de DBpedia Spotlight". GitHub . Consultado el 8 de septiembre de 2013 .
  31. «DBpedia Archivo» . Consultado el 8 de julio de 2021 .
  32. ^ Frey, Johannes; Streitmatter, Denis; Götz, Fabian; Hellmann, Sebastian; Arndt, Natanael (27 de octubre de 2020). "DBpedia Archivo: una interfaz a escala web para el archivo de ontologías bajo aspectos orientados al consumidor". En Sure-Vetter, York; Sack, Harald; Cudré-Mauroux, Philippe; Maleshkova, Maria; Pellegrini, Tassilo; Acosta, Maribel (eds.). Sistemas semánticos: el poder de la IA y los grafos de conocimiento . Cham, Suiza: Springer. doi :10.1007/978-3-030-59833-4_2. ISBN 978-3-030-59832-7.S2CID219939266  . Descargar como PDF o ePUB. Icono de acceso abierto
  33. ^ Frey, Johannes; Streitmatter, Denis; Götz, Fabián; Hellmann, Sebastián; Arndt, Natanael (10 de septiembre de 2020). DBpedia Archivo: una interfaz a escala web para el archivo de ontologías bajo aspectos orientados al consumidor. Leipzig, Alemania: Institut für Angewandte Informatik (InfAI) . Consultado el 8 de julio de 2021 . Vídeo de YouTube  00:10:38.
  • Sitio web oficial
Obtenido de "https://es.wikipedia.org/w/index.php?title=DBpedia&oldid=1245850858"