Medio y datos legibles por máquina

Medio capaz de almacenar datos en un formato legible por una máquina
ISBN representado como código de barras EAN-13 que muestra barras legibles por máquina y dígitos legibles por humanos

En comunicaciones e informática , un medio legible por máquina (o medio legible por computadora ) es un medio capaz de almacenar datos en un formato fácilmente legible por una computadora digital o un sensor . Contrasta con el medio legible por humanos y los datos .

El resultado se denomina datos legibles por máquina o datos legibles por computadora , y los datos en sí pueden describirse como legibles por máquina .

Datos

Los datos legibles por máquina deben ser datos estructurados . [1]

Los intentos de crear datos legibles por máquinas se produjeron ya en la década de 1960. Al mismo tiempo que se lanzaban avances fundamentales en la lectura por máquina y el procesamiento del lenguaje natural (como ELIZA de Weizenbaum ), la gente anticipaba el éxito de la funcionalidad legible por máquina e intentaba crear documentos legibles por máquina. Un ejemplo de ello fue la creación por parte de la musicóloga Nancy B. Reich de un catálogo legible por máquina de las obras del compositor William Jay Sydeman en 1966.

En Estados Unidos, la Ley de Datos Gubernamentales Abiertos del 14 de enero de 2019 define los datos legibles por máquina como "datos en un formato que pueda ser procesado fácilmente por una computadora sin intervención humana, garantizando al mismo tiempo que no se pierda el significado semántico". La ley ordena a las agencias federales estadounidenses publicar los datos públicos de esa manera, [2] garantizando que "todos los activos de datos públicos de la agencia sean legibles por máquina". [3]

Los datos legibles por máquina pueden clasificarse en dos grupos: datos legibles por humanos que están marcados de modo que también puedan ser leídos por máquinas (por ejemplo, microformatos , RDFa , HTML ) y formatos de archivos de datos destinados principalmente al procesamiento por máquinas ( CSV , RDF , XML , JSON ). Estos formatos solo son legibles por máquina si los datos que contienen están estructurados formalmente; exportar un archivo CSV desde una hoja de cálculo mal estructurada no cumple con la definición.

Legible por máquina no es sinónimo de accesible digitalmente . Un documento accesible digitalmente puede estar en línea, lo que facilita el acceso a través de computadoras, pero su contenido es mucho más difícil de extraer, transformar y procesar mediante la lógica de programación informática si no es legible por máquina. [4]

El lenguaje de marcado extensible (XML) está diseñado para ser legible tanto por humanos como por máquinas, y el lenguaje de transformación de hojas de estilo extensible (XSLT) se utiliza para mejorar la presentación de los datos para que sean legibles por humanos. Por ejemplo, XSLT se puede utilizar para representar automáticamente XML en formato de documento portátil ( PDF ). Los datos legibles por máquinas se pueden transformar automáticamente para que sean legibles por humanos, pero, en términos generales, lo contrario no es cierto.

Para los fines de la implementación de la Ley de Modernización de la Ley de Desempeño y Resultados del Gobierno (GPRA), la Oficina de Administración y Presupuesto (OMB) define "formato legible por máquina" de la siguiente manera: "Formato en un lenguaje de computadora estándar (no texto en inglés) que puede ser leído automáticamente por un navegador web o un sistema informático (por ejemplo, xml). Los documentos de procesamiento de textos tradicionales y los archivos de formato de documento portátil (PDF) son fáciles de leer para los humanos, pero generalmente son difíciles de interpretar para las máquinas. Otros formatos como el lenguaje de marcado extensible ( XML ), ( JSON ) u hojas de cálculo con columnas de encabezado que se pueden exportar como valores separados por comas (CSV) son formatos legibles por máquina. Como HTML es un lenguaje de marcado estructural, que etiqueta discretamente partes del documento, las computadoras pueden reunir componentes del documento para ensamblar tablas de contenido, esquemas, bibliografías de búsqueda bibliográfica, etc. Es posible hacer que los documentos de procesamiento de textos tradicionales y otros formatos sean legibles por máquina, pero los documentos deben incluir elementos estructurales mejorados". [5]

Medios de comunicación

Los ejemplos de medios legibles por máquina incluyen medios magnéticos como discos , tarjetas, cintas y tambores magnéticos , tarjetas perforadas y cintas de papel , discos ópticos , códigos de barras y caracteres de tinta magnética .

Las tecnologías legibles por máquinas más comunes incluyen la grabación magnética, el procesamiento de formas de onda y los códigos de barras . El reconocimiento óptico de caracteres (OCR) se puede utilizar para permitir que las máquinas lean la información disponible para los humanos. Cualquier información recuperable mediante cualquier forma de energía puede ser legible por máquina.

Algunos ejemplos incluyen:

Aplicaciones

Documentos

Un documento legible por máquina es un documento cuyo contenido puede ser procesado fácilmente por computadoras . Dichos documentos se distinguen de los datos legibles por máquina más generales en virtud de que tienen una estructura adicional para proporcionar el contexto necesario para respaldar los procesos comerciales para los que fueron creados.

Catálogos

MARC (catalogación legible por máquina) es un conjunto estándar de formatos digitales para la descripción legible por máquina de los elementos catalogados por las bibliotecas, como libros, DVD y recursos digitales. Los catálogos de bibliotecas computarizados y el software de gestión de bibliotecas deben estructurar sus registros de catálogo según un estándar de toda la industria, que es MARC, para que la información bibliográfica pueda compartirse libremente entre computadoras. La estructura de los registros bibliográficos sigue casi universalmente el estándar MARC. Otros estándares funcionan en conjunto con MARC, por ejemplo, las Reglas de catalogación angloamericanas (AACR)/ Descripción y acceso a recursos (RDA) proporcionan pautas para formular datos bibliográficos en la estructura de registros MARC, mientras que la Descripción bibliográfica internacional estándar (ISBD) proporciona pautas para mostrar los registros MARC en un formato estándar y legible por humanos.

Diccionarios

Un diccionario legible por máquina (MRD) es un diccionario que se almacena como datos legibles por máquina en lugar de estar impreso en papel. Es un diccionario electrónico y una base de datos léxica .

Un diccionario legible por máquina es un diccionario en formato electrónico que se puede cargar en una base de datos y se puede consultar a través de un software de aplicación. Puede ser un diccionario explicativo de un solo idioma o un diccionario multilingüe para admitir traducciones entre dos o más idiomas o una combinación de ambos. El software de traducción entre varios idiomas suele aplicar diccionarios bidireccionales. Un MRD puede ser un diccionario con una estructura propietaria que se consulta mediante un software dedicado (por ejemplo, en línea a través de Internet) o puede ser un diccionario que tiene una estructura abierta y está disponible para cargarse en bases de datos de computadora y, por lo tanto, se puede usar a través de varias aplicaciones de software. Los diccionarios convencionales contienen un lema con varias descripciones. Un diccionario legible por máquina puede tener capacidades adicionales y, por lo tanto, a veces se lo llama diccionario inteligente. Un ejemplo de un diccionario inteligente es el diccionario de inglés Gellish de código abierto .
El término diccionario también se usa para referirse a un vocabulario o léxico electrónico como se usa, por ejemplo, en los correctores ortográficos . Si los diccionarios están organizados en una jerarquía de subtipo-supertipo de conceptos (o términos), entonces se llama taxonomía . Si además contiene otras relaciones entre los conceptos, se denomina ontología . Los buscadores pueden utilizar un vocabulario, una taxonomía o una ontología para optimizar los resultados de búsqueda. Los diccionarios electrónicos especializados son diccionarios morfológicos o diccionarios sintácticos.

El término MRD se suele contrastar con el de diccionario NLP , en el sentido de que un MRD es la forma electrónica de un diccionario que antes se imprimía en papel. Aunque ambos son utilizados por programas, en cambio, se prefiere el término diccionario NLP cuando el diccionario se creó desde cero teniendo en cuenta el NLP. Existe un estándar ISO para MRD y NLP que puede representar ambas estructuras y se denomina Marco de marcado léxico . [6]

Pasaportes

Un pasaporte legible por máquina (MRP, por sus siglas en inglés) es un documento de viaje legible por máquina (MRTD, por sus siglas en inglés) con los datos de la página de identidad codificados en formato de reconocimiento óptico de caracteres . Muchos países comenzaron a emitir documentos de viaje legibles por máquina en la década de 1980. La mayoría de los pasaportes de viaje en todo el mundo son MRP. La Organización de Aviación Civil Internacional (OACI) exige que todos los estados miembros de la OACI expidan únicamente MRP a partir del 1 de abril de 2010, y todos los pasaportes que no sean MRP deben caducar antes del 24 de noviembre de 2015. [7]

Los pasaportes legibles por máquina están estandarizados por el Documento 9303 de la OACI (aprobada por la Organización Internacional de Normalización y la Comisión Electrotécnica Internacional como ISO/IEC 7501-1) y tienen una zona especial legible por máquina ( ZLM ), que suele estar en la parte inferior de la página de identidad al principio del pasaporte. El Documento 9303 de la OACI describe tres tipos de documentos que corresponden a los tamaños de la ISO/IEC 7810 :

  • El tipo 3 es el típico de los pasaportes. La ZLM consta de 2 líneas y 44 caracteres.
  • El "Tipo 2" es relativamente raro con 2 líneas × 36 caracteres.
  • El "Tipo 1" tiene el tamaño de una tarjeta de crédito con 3 líneas × 30 caracteres.

El formato fijo permite especificar el tipo de documento, nombre, número de documento, nacionalidad, fecha de nacimiento, sexo y fecha de vencimiento del documento. Todos estos campos son obligatorios en un pasaporte. Hay espacio para información complementaria opcional, que a menudo depende del país. También hay dos tamaños de visas legibles por máquina definidos de manera similar.

Los ordenadores con una cámara y un software adecuado pueden leer directamente la información de los pasaportes legibles por máquina. Esto permite que los funcionarios de inmigración procesen más rápidamente a los pasajeros que llegan y que la información sea más precisa que con los pasaportes leídos manualmente, así como que la entrada de datos sea más rápida, que se puedan leer más datos y que los datos se puedan comparar mejor con las bases de datos y las listas de vigilancia de inmigración.

Además de la información legible ópticamente, muchos pasaportes contienen un chip RFID que permite a los ordenadores leer una mayor cantidad de información, por ejemplo, una fotografía del portador. Estos pasaportes se denominan pasaportes biométricos y también están descritos en la norma ICAO 9303.

Véase también

Referencias

  1. ^ "Legible por máquina". opendatahandbook.org . Consultado el 22 de julio de 2019 .
  2. ^ "HR4174". stratml.us .
  3. ^ "HR4174". stratml.us .
  4. ^ Hendler, Jim; Pardo, Theresa A. (24 de septiembre de 2012). "Una introducción a la legibilidad por máquina de documentos y datos en línea". Data.gov . Consultado el 27 de febrero de 2015 .
  5. ^ Circular A-11 de la OMB, Parte 6 Archivado el 22 de abril de 2020 en Wayback Machine , Preparación, presentación y ejecución del presupuesto
  6. ^ Gil Francopoulo (editado por) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 ) 
  7. ^ "Última semana para que los Estados garanticen la expiración de los pasaportes que no son de lectura mecánica". ICAO . Montreal. 17 de noviembre de 2015 . Consultado el 11 de marzo de 2024 .

Dominio público Este artículo incorpora material de dominio público de la Norma Federal 1037C. Administración de Servicios Generales . Archivado desde el original el 22 de enero de 2022.


Obtenido de "https://es.wikipedia.org/w/index.php?title=Medio_y_datos_legibles_por_máquina&oldid=1250728607"