Semántica | ||||||||
---|---|---|---|---|---|---|---|---|
| ||||||||
Semantics of programming languages | ||||||||
| ||||||||
La Web semántica , a veces conocida como Web 3.0 (que no debe confundirse con Web3 ), es una extensión de la World Wide Web a través de estándares [1] establecidos por el Consorcio World Wide Web (W3C). El objetivo de la Web semántica es hacer que los datos de Internet sean legibles por máquinas .
Para permitir la codificación de la semántica con los datos, se utilizan tecnologías como Resource Description Framework (RDF) [2] y Web Ontology Language (OWL) [3] . Estas tecnologías se utilizan para representar formalmente metadatos . Por ejemplo, la ontología puede describir conceptos , relaciones entre entidades y categorías de cosas. Estas semánticas integradas ofrecen ventajas significativas, como el razonamiento sobre datos y el funcionamiento con fuentes de datos heterogéneas. [4] Estos estándares promueven formatos de datos comunes y protocolos de intercambio en la Web, fundamentalmente el RDF. Según el W3C, "La Web Semántica proporciona un marco común que permite compartir y reutilizar datos a través de los límites de aplicaciones, empresas y comunidades". [5] Por lo tanto, la Web Semántica se considera un integrador entre diferentes aplicaciones y sistemas de contenido e información.
El término fue acuñado por Tim Berners-Lee para referirse a una red de datos (o red de datos ) [6] que puede ser procesada por máquinas [7], es decir, una en la que gran parte del significado es legible por máquinas . Si bien sus críticos han cuestionado su viabilidad, los defensores argumentan que las aplicaciones en la investigación en biblioteconomía y ciencias de la información , la industria, la biología y las ciencias humanas ya han demostrado la validez del concepto original. [8]
Berners-Lee expresó originalmente su visión de la Web Semántica en 1999 de la siguiente manera:
Sueño con una Web en la que los ordenadores sean capaces de analizar todos los datos que hay en ella: el contenido, los vínculos y las transacciones entre personas y ordenadores. Todavía no ha surgido una "Web semántica" que haga posible esto, pero cuando lo haga, los mecanismos cotidianos del comercio, la burocracia y nuestra vida diaria estarán a cargo de máquinas que se comunicarán con máquinas. Los " agentes inteligentes " que la gente ha promocionado durante siglos finalmente se materializarán. [9]
El artículo de 2001 de la revista Scientific American escrito por Berners-Lee, Hendler y Lassila describió una evolución esperada de la Web existente hacia una Web semántica. [10] En 2006, Berners-Lee y sus colegas afirmaron que: "Esta simple idea... sigue en gran medida sin hacerse realidad". [11] En 2013, más de cuatro millones de dominios web (de un total aproximado de 250 millones) contenían marcado de Web semántica. [12]
En el siguiente ejemplo, se anotará el texto "Paul Schuster nació en Dresde" en un sitio web, conectando a una persona con su lugar de nacimiento. El siguiente fragmento HTML muestra cómo se describe un pequeño gráfico, en sintaxis RDFa, utilizando un vocabulario de schema.org y un identificador de Wikidata :
< div vocab = "https://schema.org/" typeof = "Persona" > < span property = "nombre" > Paul Schuster </ span > nació en < span property = "lugardenacimiento" typeof = "lugar" href = "https://www.wikidata.org/entity/Q1731" > < span property = "nombre" > Dresde </ span > . </ span > </ div >
El ejemplo define los siguientes cinco triples (mostrados en sintaxis Turtle ). Cada triple representa una arista en el gráfico resultante: el primer elemento del triple (el sujeto ) es el nombre del nodo donde comienza la arista, el segundo elemento (el predicado ) el tipo de la arista y el último y tercer elemento (el objeto ) el nombre del nodo donde termina la arista o un valor literal (por ejemplo, un texto, un número, etc.).
_ : un <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <https://schema.org/Person> . _ : un <https://schema.org/name> "Paul Schuster" . _ : un <https://schema.org/birthPlace> <https://www.wikidata.org/entity/Q1731> . <https://www.wikidata.org/entity/Q1731> <https://schema.org/itemtype> <https://schema.org/Place> . <https://www.wikidata.org/entity/Q1731> <https://schema.org/name> "Dresde" .
Los triples dan como resultado el gráfico que se muestra en la figura dada.
Una de las ventajas de utilizar identificadores uniformes de recursos (URI) es que se pueden desreferenciar mediante el protocolo HTTP . Según los principios de Linked Open Data , un URI desreferenciado de este tipo debería dar como resultado un documento que ofrezca más datos sobre el URI en cuestión. En este ejemplo, todos los URI, tanto para los bordes como para los nodos (por ejemplo http://schema.org/Person
, , http://schema.org/birthPlace
, http://www.wikidata.org/entity/Q1731
) se pueden desreferenciar y darán como resultado más gráficos RDF que describen el URI, por ejemplo, que Dresde es una ciudad de Alemania o que una persona, en el sentido de ese URI, puede ser ficticia.
El segundo gráfico muestra el ejemplo anterior, pero ahora enriquecido con algunos de los triples de los documentos que resultan de la desreferenciación https://schema.org/Person
(borde verde) y https://www.wikidata.org/entity/Q1731
(bordes azules).
Además de los bordes que se dan explícitamente en los documentos involucrados, los bordes se pueden inferir automáticamente: el triple
_ : un <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> .
del fragmento RDFa original y el triple
<https://schema.org/Person> <http://www.w3.org/2002/07/owl#equivalentClass> <http://xmlns.com/foaf/0.1/Person> .
Del documento en https://schema.org/Person
(borde verde en la figura) se puede inferir el siguiente triple, dada la semántica OWL (línea discontinua roja en la segunda figura):
_ : un <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> .
El concepto de modelo de red semántica fue formado a principios de la década de 1960 por investigadores como el científico cognitivo Allan M. Collins , el lingüista Ross Quillian y la psicóloga Elizabeth F. Loftus como una forma de representar el conocimiento semánticamente estructurado. Cuando se aplica en el contexto de la Internet moderna, extiende la red de páginas web hipervinculadas legibles por humanos insertando metadatos legibles por máquina sobre las páginas y cómo se relacionan entre sí. Esto permite que los agentes automatizados accedan a la Web de forma más inteligente y realicen más tareas en nombre de los usuarios. El término "Web semántica" fue acuñado por Tim Berners-Lee , [7] el inventor de la World Wide Web y director del Consorcio World Wide Web (" W3C "), que supervisa el desarrollo de los estándares propuestos para la Web semántica. Define la Web semántica como "una red de datos que pueden ser procesados directa e indirectamente por máquinas".
Muchas de las tecnologías propuestas por el W3C ya existían antes de que se las posicionara bajo el paraguas del W3C. Se utilizan en diversos contextos, en particular en aquellos que tratan con información que abarca un dominio limitado y definido, y donde compartir datos es una necesidad común, como la investigación científica o el intercambio de datos entre empresas. Además, han surgido otras tecnologías con objetivos similares, como los microformatos .
Muchos archivos de una computadora típica también se pueden dividir en documentos legibles para humanos y datos legibles para máquinas. Los documentos como mensajes de correo, informes y folletos son leídos por humanos. Los datos, como calendarios, libretas de direcciones, listas de reproducción y hojas de cálculo, se presentan mediante un programa de aplicación que permite verlos, buscarlos y combinarlos.
En la actualidad, la World Wide Web se basa principalmente en documentos escritos en lenguaje de marcado de hipertexto (HTML), una convención de marcado que se utiliza para codificar un cuerpo de texto intercalado con objetos multimedia, como imágenes y formularios interactivos. Las etiquetas de metadatos proporcionan un método mediante el cual las computadoras pueden categorizar el contenido de las páginas web. En los ejemplos siguientes, a los nombres de campo "palabras clave", "descripción" y "autor" se les asignan valores como "informática", "widgets baratos a la venta" y "John Doe".
< meta name = "keywords" content = "informática, estudios informáticos, computadora" /> < meta name = "description" content = "Widgets baratos a la venta" /> < meta name = "author" content = "John Doe" />
Gracias a este etiquetado y categorización de metadatos, otros sistemas informáticos que quieran acceder y compartir estos datos pueden identificar fácilmente los valores relevantes.
Con HTML y una herramienta para reproducirlo (quizás un software de navegador web , tal vez otro agente de usuario ), se puede crear y presentar una página que incluya artículos a la venta. El HTML de esta página de catálogo puede hacer afirmaciones simples a nivel de documento como "el título de este documento es 'Widget Superstore ' ", pero no hay capacidad dentro del HTML mismo para afirmar de manera inequívoca que, por ejemplo, el número de artículo X586172 es un Acme Gizmo con un precio de venta al público de 199 €, o que es un producto de consumo. En cambio, HTML solo puede decir que el fragmento de texto "X586172" es algo que debería ubicarse cerca de "Acme Gizmo" y "199 €", etc. No hay forma de decir "esto es un catálogo" o incluso de establecer que "Acme Gizmo" es una especie de título o que "199 €" es un precio. Tampoco hay forma de expresar que estas piezas de información están unidas para describir un artículo discreto, distinto de otros artículos que tal vez se incluyan en la página.
El HTML semántico se refiere a la práctica tradicional de HTML de marcar siguiendo la intención, en lugar de especificar detalles de diseño directamente. Por ejemplo, el uso de <em>
para indicar "énfasis" en lugar de <i>
, que especifica cursiva . Los detalles de diseño se dejan en manos del navegador, en combinación con hojas de estilo en cascada . Pero esta práctica no llega a especificar la semántica de objetos como artículos en venta o precios.
Los microformatos amplían la sintaxis HTML para crear un marcado semántico legible por máquina sobre objetos, incluidas personas, organizaciones, eventos y productos. [13] Iniciativas similares incluyen RDFa , Microdata y Schema.org .
La Web semántica lleva la solución más allá. Implica la publicación en lenguajes diseñados específicamente para datos: Resource Description Framework (RDF), Web Ontology Language (OWL) y Extensible Markup Language ( XML ). HTML describe documentos y los vínculos entre ellos. RDF, OWL y XML, por el contrario, pueden describir cosas arbitrarias, como personas, reuniones o partes de aviones.
Estas tecnologías se combinan para proporcionar descripciones que complementen o reemplacen el contenido de los documentos web. Así, el contenido puede manifestarse como datos descriptivos almacenados en bases de datos accesibles desde la web , [14] o como marcado dentro de los documentos (en particular, en HTML extensible ( XHTML ) intercalado con XML, o, más a menudo, puramente en XML, con señales de diseño o representación almacenadas por separado). Las descripciones legibles por máquina permiten a los administradores de contenido agregar significado al contenido, es decir, describir la estructura del conocimiento que tenemos sobre ese contenido. De esta manera, una máquina puede procesar el conocimiento por sí misma, en lugar del texto, utilizando procesos similares al razonamiento deductivo y la inferencia humanos , obteniendo así resultados más significativos y ayudando a las computadoras a realizar la recopilación e investigación de información automatizadas.
Un ejemplo de una etiqueta que se utilizaría en una página web no semántica:
<item> blog </item>
La codificación de información similar en una página web semántica podría verse así:
<item rdf:about= "https://example.org/semantic-web/" > Web semántica </item>
Tim Berners-Lee denomina a la red resultante de datos vinculados el "Gráfico global gigante" , en contraste con la World Wide Web basada en HTML. Berners-Lee postula que si el pasado era el intercambio de documentos, el futuro es el intercambio de datos . Su respuesta a la pregunta de "cómo" proporciona tres puntos de instrucción. Uno, una URL debe apuntar a los datos. Dos, cualquiera que acceda a la URL debe obtener datos de vuelta. Tres, las relaciones en los datos deben apuntar a URL adicionales con datos.
Las etiquetas , incluidas las categorías jerárquicas y las etiquetas que se agregan y mantienen de forma colaborativa (por ejemplo, con folksonomías ), pueden considerarse parte de, de uso potencial para o un paso hacia la visión de la Web semántica. [15] [16] [17]
Los identificadores únicos , incluidas las categorías jerárquicas y las agregadas de manera colaborativa, las herramientas de análisis (por ejemplo, los algoritmos scite.ai) [18] y los metadatos , incluidas las etiquetas, se pueden utilizar para crear formas de webs semánticas, webs que son hasta cierto punto semánticas. En particular, esto se ha utilizado para estructurar la investigación científica por temas de investigación y campos científicos por los proyectos OpenAlex [ 19] [20] [21] Wikidata y Scholia que están en desarrollo y proporcionan API , páginas web, feeds y gráficos para varias consultas semánticas .
Tim Berners-Lee ha descrito la Web Semántica como un componente de la Web 3.0. [22]
La gente sigue preguntándose qué es la Web 3.0. Creo que tal vez cuando tengas una superposición de gráficos vectoriales escalables –todo ondulando, plegándose y luciendo borroso– sobre la Web 2.0 y acceso a una Web semántica integrada en un espacio enorme de datos, tendrás acceso a un recurso de datos increíble…
—Tim Berners-Lee, 2006
"Web Semántica" se utiliza a veces como sinónimo de "Web 3.0", [23] aunque la definición de cada término varía.
La próxima generación de la Web se suele denominar Web 4.0, pero su definición no es clara. Según algunas fuentes, es una Web que involucra inteligencia artificial , [24] Internet de las cosas , computación generalizada , computación ubicua y la Web de las cosas, entre otros conceptos. [25] Según la Unión Europea, la Web 4.0 es "la cuarta generación esperada de la World Wide Web. Utilizando inteligencia artificial y ambiental avanzada, Internet de las cosas, transacciones confiables de blockchain, mundos virtuales y capacidades XR, los objetos y entornos digitales y reales están completamente integrados y se comunican entre sí, lo que permite experiencias verdaderamente intuitivas e inmersivas, mezclando a la perfección los mundos físico y digital". [26]
Algunos de los desafíos que se le presentan a la Web Semántica son la inmensidad, la vaguedad, la incertidumbre, la inconsistencia y el engaño. Los sistemas de razonamiento automatizado tendrán que lidiar con todos estos problemas para cumplir la promesa de la Web Semántica.
Esta lista de desafíos es ilustrativa, no exhaustiva, y se centra en los desafíos a los que se enfrentan las capas de "lógica unificadora" y "prueba" de la Web semántica. El informe final del Grupo Incubador para el Razonamiento de Incertidumbre para la World Wide Web [27] (URW3-XG) del Consorcio World Wide Web (W3C) agrupa estos problemas bajo el único título de "incertidumbre". [28] Muchas de las técnicas mencionadas aquí requerirán extensiones del Lenguaje de Ontología Web (OWL), por ejemplo, para anotar probabilidades condicionales. Esta es un área de investigación activa. [29]
La estandarización de la Web Semántica en el contexto de la Web 3.0 está a cargo del W3C. [30]
El término "Web semántica" se utiliza a menudo de forma más específica para referirse a los formatos y tecnologías que la hacen posible. [5] La recopilación, estructuración y recuperación de datos vinculados se hace posible gracias a tecnologías que proporcionan una descripción formal de conceptos, términos y relaciones dentro de un dominio de conocimiento determinado . Estas tecnologías se especifican como estándares del W3C e incluyen:
La pila de la Web semántica ilustra la arquitectura de la Web semántica. Las funciones y relaciones de los componentes se pueden resumir de la siguiente manera: [31]
Estándares bien establecidos:
Aún no se ha realizado plenamente:
La intención es mejorar la usabilidad y utilidad de la Web y sus recursos interconectados mediante la creación de servicios web semánticos , como:
<meta>
etiquetas HTML utilizadas en las páginas web actuales para proporcionar información a los motores de búsqueda web que utilizan rastreadores web ). Esta podría ser información comprensible para las máquinas sobre el contenido comprensible para los humanos del documento (como el creador, el título, la descripción, etc.) o podría ser puramente metadatos que representan un conjunto de hechos (como recursos y servicios en otras partes del sitio). Tenga en cuenta que cualquier cosa que pueda identificarse con un Identificador uniforme de recursos (URI) puede describirse, por lo que la web semántica puede razonar sobre animales, personas, lugares, ideas, etc. Hay cuatro formatos de anotación semántica que se pueden utilizar en documentos HTML: microformato, RDFa, microdatos y JSON-LD . [35] El marcado semántico a menudo se genera automáticamente, en lugar de manualmente.Estos servicios podrían ser útiles para los motores de búsqueda públicos o podrían utilizarse para la gestión del conocimiento dentro de una organización. Las aplicaciones empresariales incluyen:
En una corporación, existe un grupo cerrado de usuarios y la gerencia puede hacer cumplir las pautas de la empresa, como la adopción de ontologías específicas y el uso de anotaciones semánticas . En comparación con la Web Semántica pública, existen menores requisitos de escalabilidad y la información que circula dentro de una empresa puede ser más confiable en general; la privacidad es un problema menor fuera del manejo de datos de los clientes.
Los críticos cuestionan la viabilidad básica de una implementación completa o incluso parcial de la Web Semántica, señalando tanto las dificultades para su puesta en marcha como la falta de utilidad para fines generales que impide invertir el esfuerzo requerido. En un artículo de 2003, Marshall y Shipman señalan la sobrecarga cognitiva inherente a la formalización del conocimiento, en comparación con la creación de hipertexto web tradicional : [46]
Aunque aprender los conceptos básicos de HTML es relativamente sencillo, aprender un lenguaje o herramienta de representación del conocimiento requiere que el autor aprenda acerca de los métodos de abstracción de la representación y su efecto en el razonamiento. Por ejemplo, comprender la relación clase-instancia, o la relación superclase-subclase, es más que comprender que un concepto es un "tipo de" otro concepto. [...] Estas abstracciones se enseñan a los científicos informáticos en general y a los ingenieros del conocimiento en particular, pero no coinciden con el significado similar del lenguaje natural de ser un "tipo de" algo. El uso eficaz de una representación formal de este tipo requiere que el autor se convierta en un ingeniero del conocimiento experto, además de otras habilidades requeridas por el dominio. [...] Una vez que uno ha aprendido un lenguaje de representación formal, a menudo sigue siendo mucho más esfuerzo expresar ideas en esa representación que en una representación menos formal [...]. De hecho, esta es una forma de programación basada en la declaración de datos semánticos y requiere una comprensión de cómo los algoritmos de razonamiento interpretarán las estructuras creadas.
Según Marshall y Shipman, la naturaleza tácita y cambiante de gran parte del conocimiento se suma al problema de la ingeniería del conocimiento y limita la aplicabilidad de la Web semántica a dominios específicos. Otro problema que señalan son las formas específicas de dominio u organización de expresar el conocimiento, que deben resolverse mediante el acuerdo de la comunidad en lugar de solo medios técnicos. [46] Como resultado, las comunidades y organizaciones especializadas para proyectos intraempresariales han tendido a adoptar tecnologías de la Web semántica en mayor medida que las comunidades periféricas y menos especializadas. [47] Las limitaciones prácticas para la adopción han parecido menos desafiantes donde el dominio y el alcance son más limitados que en el caso del público en general y la World Wide Web. [47]
Finalmente, Marshall y Shipman ven problemas pragmáticos en la idea de agentes inteligentes ( al estilo de Knowledge Navigator ) que trabajan en la Web Semántica, curada en gran medida de forma manual: [46]
En situaciones en las que se conocen las necesidades de los usuarios y los recursos de información distribuidos están bien descritos, este enfoque puede ser muy eficaz; en situaciones que no se prevén y que reúnen una serie imprevista de recursos de información, el enfoque de Google es más sólido. Además, la Web semántica se basa en cadenas de inferencia que son más frágiles; un elemento faltante de la cadena da como resultado un fracaso en la realización de la acción deseada, mientras que el ser humano puede proporcionar las piezas faltantes en un enfoque más parecido al de Google. [...] las compensaciones de costo-beneficio pueden funcionar a favor de metadatos de la Web semántica especialmente creados y dirigidos a entrelazar recursos de información específicos del dominio, bien estructurados y sensibles; una atención minuciosa a las necesidades de los usuarios/clientes impulsará estas federaciones para que tengan éxito.
La crítica de Cory Doctorow (" metacrap ") [48] se basa en la perspectiva del comportamiento humano y las preferencias personales. Por ejemplo, las personas pueden incluir metadatos falsos en las páginas web con el fin de engañar a los motores de la Web semántica, que ingenuamente asumen la veracidad de los metadatos. Este fenómeno era bien conocido con las metaetiquetas que engañaban al algoritmo de clasificación de Altavista para que elevara la clasificación de ciertas páginas web: el motor de indexación de Google busca específicamente este tipo de intentos de manipulación. Peter Gärdenfors y Timo Honkela señalan que las tecnologías de la Web semántica basadas en la lógica cubren solo una fracción de los fenómenos relevantes relacionados con la semántica. [49] [50]
El entusiasmo por la web semántica podría verse atenuado por las preocupaciones en torno a la censura y la privacidad . Por ejemplo, las técnicas de análisis de textos pueden ahora eludirse fácilmente utilizando otras palabras, metáforas por ejemplo, o utilizando imágenes en lugar de palabras. Una implementación avanzada de la web semántica facilitaría mucho a los gobiernos el control de la visualización y creación de información en línea, ya que esta información sería mucho más fácil de entender para una máquina de bloqueo de contenido automatizada. Además, también se ha planteado la cuestión de que, con el uso de archivos FOAF y metadatos de geolocalización , habría muy poco anonimato asociado con la autoría de artículos sobre cosas como un blog personal. Algunas de estas preocupaciones se abordaron en el proyecto "Policy Aware Web" [51] y es un tema de investigación y desarrollo activo.
Otra crítica a la web semántica es que la creación y publicación de contenido requeriría mucho más tiempo, ya que se necesitarían dos formatos para cada dato: uno para que lo vean los humanos y otro para las máquinas. Sin embargo, muchas aplicaciones web en desarrollo están abordando este problema creando un formato legible por máquinas cuando se publican los datos o cuando una máquina los solicita. El desarrollo de microformatos ha sido una reacción a este tipo de críticas. Otro argumento en defensa de la viabilidad de la web semántica es la probable caída del precio de las tareas de inteligencia humana en los mercados laborales digitales, como el Mechanical Turk de Amazon . [ cita requerida ]
Especificaciones como eRDF y RDFa permiten que se incorporen datos RDF arbitrarios en páginas HTML. El mecanismo GRDDL (Gleaning Resource Descriptions from Dialects of Language) permite que el material existente (incluidos los microformatos) se interprete automáticamente como RDF, de modo que los editores solo tengan que utilizar un único formato, como HTML.
El primer grupo de investigación que se centró explícitamente en la Web semántica corporativa fue el equipo ACACIA en INRIA-Sophia-Antipolis , fundado en 2002. Los resultados de su trabajo incluyen el motor de búsqueda Corese [52] basado en RDF(S) y la aplicación de la tecnología de la web semántica en el ámbito de la inteligencia artificial distribuida para la gestión del conocimiento (por ejemplo, ontologías y sistemas multiagente para la Web semántica corporativa) [53] y el aprendizaje electrónico . [54]
Desde 2008, el grupo de investigación de la Web Semántica Corporativa, ubicado en la Universidad Libre de Berlín , se centra en los bloques de construcción: Búsqueda Semántica Corporativa, Colaboración Semántica Corporativa e Ingeniería Ontológica Corporativa. [55]
La investigación en ingeniería ontológica incluye la cuestión de cómo involucrar a usuarios no expertos en la creación de ontologías y contenido anotado semánticamente [56] y para extraer conocimiento explícito de la interacción de los usuarios dentro de las empresas.
Tim O'Reilly , quien acuñó el término Web 2.0, propuso una visión a largo plazo de la Web Semántica como una red de datos, donde aplicaciones sofisticadas navegan y la manipulan. [57] La web de datos transforma la World Wide Web de un sistema de archivos distribuido a una base de datos distribuida . [58]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite book}}
: |work=
ignorado ( ayuda )