Integridad de los datos

Mantenimiento de datos durante todo su ciclo de vida

La integridad de los datos es el mantenimiento y la garantía de la precisión y la coherencia de los datos a lo largo de todo su ciclo de vida . [1] Es un aspecto fundamental para el diseño, la implementación y el uso de cualquier sistema que almacene, procese o recupere datos. El término tiene un alcance amplio y puede tener significados muy diferentes según el contexto específico, incluso bajo el mismo paraguas general de la informática . A veces se utiliza como un término sustituto de la calidad de los datos , [2] mientras que la validación de datos es un requisito previo para la integridad de los datos. [3]

Definición

La integridad de los datos es lo opuesto a la corrupción de los datos . [4] La intención general de cualquier técnica de integridad de datos es la misma: garantizar que los datos se registren exactamente como se pretende (por ejemplo, una base de datos que rechace correctamente las posibilidades mutuamente excluyentes). Además, en caso de recuperación posterior , garantizar que los datos sean los mismos que cuando se registraron originalmente. En resumen, la integridad de los datos tiene como objetivo evitar cambios no intencionales en la información. La integridad de los datos no debe confundirse con la seguridad de los datos , la disciplina de proteger los datos de partes no autorizadas.

Cualquier cambio no deseado en los datos como resultado de una operación de almacenamiento, recuperación o procesamiento, incluyendo intenciones maliciosas, fallas inesperadas de hardware y errores humanos , es un fallo de integridad de los datos. Si los cambios son el resultado de un acceso no autorizado, también puede ser un fallo de seguridad de los datos. Dependiendo de los datos involucrados, esto podría manifestarse de manera benigna, como un solo píxel en una imagen que aparece con un color diferente al que se registró originalmente, hasta la pérdida de fotografías de vacaciones o una base de datos crítica para la empresa, o incluso la pérdida catastrófica de vidas humanas en un sistema crítico para la vida .

Tipos de integridad

Integridad física

La integridad física se ocupa de los desafíos asociados con el almacenamiento y la obtención correctos de los datos en sí. Los desafíos con la integridad física pueden incluir fallas electromecánicas , fallas de diseño, fatiga del material , corrosión , cortes de energía , desastres naturales y otros peligros ambientales especiales como radiación ionizante , temperaturas extremas, presiones y fuerzas g . Garantizar la integridad física incluye métodos como hardware redundante , un sistema de alimentación ininterrumpida , ciertos tipos de matrices RAID , chips reforzados contra la radiación , memoria con corrección de errores , uso de un sistema de archivos en clúster , uso de sistemas de archivos que emplean sumas de comprobación a nivel de bloque como ZFS , matrices de almacenamiento que calculan cálculos de paridad como exclusivos o usan una función hash criptográfica e incluso tener un temporizador de vigilancia en subsistemas críticos.

La integridad física a menudo hace un uso extensivo de algoritmos de detección de errores conocidos como códigos de corrección de errores . Los errores de integridad de datos inducidos por humanos a menudo se detectan mediante el uso de comprobaciones y algoritmos más simples, como el algoritmo Damm o el algoritmo Luhn . Estos se utilizan para mantener la integridad de los datos después de la transcripción manual de un sistema informático a otro por un intermediario humano (por ejemplo, números de ruta de tarjetas de crédito o bancos). Los errores de transcripción inducidos por computadora se pueden detectar a través de funciones hash .

En los sistemas de producción, estas técnicas se utilizan en conjunto para garantizar diversos grados de integridad de los datos. Por ejemplo, un sistema de archivos informático puede estar configurado en una matriz RAID tolerante a fallos, pero es posible que no proporcione sumas de comprobación a nivel de bloque para detectar y evitar la corrupción silenciosa de los datos . Como otro ejemplo, un sistema de gestión de bases de datos puede ser compatible con las propiedades ACID , pero el controlador RAID o la memoria caché de escritura interna de la unidad de disco duro pueden no serlo.

Integridad lógica

Este tipo de integridad se ocupa de la corrección o racionalidad de un dato, dado un contexto particular. Esto incluye temas como la integridad referencial y la integridad de la entidad en una base de datos relacional o ignorar correctamente datos de sensores imposibles en sistemas robóticos. Estas preocupaciones implican garantizar que los datos "tengan sentido" dado su entorno. Los desafíos incluyen errores de software , fallas de diseño y errores humanos. Los métodos comunes para garantizar la integridad lógica incluyen cosas como restricciones de verificación , restricciones de clave externa , aserciones de programa y otras comprobaciones de cordura en tiempo de ejecución.

La integridad física y lógica a menudo comparten muchos desafíos, como errores humanos y fallas de diseño, y ambas deben lidiar adecuadamente con solicitudes concurrentes para registrar y recuperar datos, este último es un tema completamente aparte.

Si un sector de datos solo tiene un error lógico, se puede reutilizar sobrescribiéndolo con datos nuevos. En caso de un error físico, el sector de datos afectado queda inutilizable de forma permanente.

Bases de datos

La integridad de los datos contiene pautas para la retención de datos , que especifican o garantizan el tiempo durante el cual se pueden retener los datos en una base de datos en particular (normalmente una base de datos relacional ). Para lograr la integridad de los datos, estas reglas se aplican de manera sistemática y sistemática a todos los datos que ingresan al sistema, y ​​cualquier relajación de la aplicación podría causar errores en los datos. La implementación de controles sobre los datos lo más cerca posible de la fuente de entrada (como la entrada de datos humana) hace que ingresen menos datos erróneos al sistema. La aplicación estricta de las reglas de integridad de datos da como resultado tasas de error más bajas y tiempo ahorrado en la resolución de problemas y el seguimiento de datos erróneos y los errores que causan en los algoritmos.

La integridad de los datos también incluye reglas que definen las relaciones que puede tener un dato con otros datos, como por ejemplo, que un registro de un cliente pueda vincularse a productos adquiridos , pero no a datos no relacionados, como activos corporativos . La integridad de los datos a menudo incluye comprobaciones y correcciones de datos no válidos, según un esquema fijo o un conjunto de reglas predefinidas. Un ejemplo son los datos textuales introducidos en los que se requiere un valor de fecha y hora. También se aplican reglas para la derivación de datos, que especifican cómo se deriva un valor de datos según el algoritmo, los contribuyentes y las condiciones. También especifica las condiciones sobre cómo se puede volver a derivar el valor de los datos.

Tipos de restricciones de integridad

La integridad de los datos se suele garantizar en un sistema de base de datos mediante una serie de restricciones o reglas de integridad. Tres tipos de restricciones de integridad son parte inherente del modelo de datos relacionales : integridad de entidad, integridad referencial e integridad de dominio.

  • La integridad de entidad se refiere al concepto de clave principal . La integridad de entidad es una regla de integridad que establece que cada tabla debe tener una clave principal y que la columna o columnas elegidas como clave principal deben ser únicas y no nulas.
  • La integridad referencial se refiere al concepto de clave externa . La regla de integridad referencial establece que cualquier valor de clave externa solo puede estar en uno de dos estados. El estado habitual es que el valor de clave externa se refiera a un valor de clave principal de alguna tabla de la base de datos. Ocasionalmente, y esto dependerá de las reglas del propietario de los datos, un valor de clave externa puede ser null . En este caso, estamos diciendo explícitamente que no existe ninguna relación entre los objetos representados en la base de datos o que esta relación es desconocida.
  • La integridad del dominio especifica que todas las columnas de una base de datos relacional deben declararse en un dominio definido. La unidad principal de datos en el modelo de datos relacional es el elemento de datos. Se dice que estos elementos de datos no se pueden descomponer o son atómicos. Un dominio es un conjunto de valores del mismo tipo. Por lo tanto, los dominios son grupos de valores de los que se extraen los valores reales que aparecen en las columnas de una tabla.
  • La integridad definida por el usuario se refiere a un conjunto de reglas especificadas por un usuario, que no pertenecen a las categorías de integridad de entidad, dominio e integridad referencial.

Si una base de datos admite estas funciones, es responsabilidad de la base de datos garantizar la integridad de los datos, así como el modelo de coherencia para el almacenamiento y la recuperación de datos. Si una base de datos no admite estas funciones, es responsabilidad de las aplicaciones garantizar la integridad de los datos mientras que la base de datos admite el modelo de coherencia para el almacenamiento y la recuperación de datos.

Disponer de un sistema de integridad de datos único, bien controlado y bien definido aumenta:

  • estabilidad (un sistema centralizado realiza todas las operaciones de integridad de datos)
  • Rendimiento (todas las operaciones de integridad de datos se realizan en el mismo nivel que el modelo de consistencia)
  • reutilización (todas las aplicaciones se benefician de un único sistema centralizado de integridad de datos)
  • mantenibilidad (un sistema centralizado para toda la administración de la integridad de los datos).

Las bases de datos modernas admiten estas funciones (consulte Comparación de sistemas de gestión de bases de datos relacionales ) y se ha convertido en responsabilidad de facto de la base de datos garantizar la integridad de los datos. Las empresas, y de hecho muchos sistemas de bases de datos, ofrecen productos y servicios para migrar sistemas heredados a bases de datos modernas.

Ejemplos

Un ejemplo de un mecanismo de integridad de datos es la relación padre-hijo de registros relacionados. Si un registro padre posee uno o más registros hijos relacionados, todos los procesos de integridad referencial son manejados por la propia base de datos, lo que garantiza automáticamente la precisión e integridad de los datos, de modo que ningún registro hijo pueda existir sin un padre (también llamado huérfano) y que ningún padre pierda sus registros hijos. También garantiza que ningún registro padre pueda eliminarse mientras el registro padre posea algún registro hijo. Todo esto se maneja a nivel de la base de datos y no requiere la codificación de comprobaciones de integridad en cada aplicación.

Sistemas de archivos

Varios resultados de investigación muestran que ni los sistemas de archivos generalizados (incluidos UFS , Ext , XFS , JFS y NTFS ) ni las soluciones RAID de hardware proporcionan protección suficiente contra los problemas de integridad de los datos. [5] [6] [7] [8] [9]

Algunos sistemas de archivos (incluidos Btrfs y ZFS ) proporcionan una suma de comprobación interna de datos y metadatos que se utiliza para detectar la corrupción silenciosa de datos y mejorar la integridad de los datos. Si se detecta una corrupción de esa manera y también se utilizan los mecanismos RAID internos proporcionados por esos sistemas de archivos, dichos sistemas de archivos pueden reconstruir además los datos dañados de forma transparente. [10] Este enfoque permite una mejor protección de la integridad de los datos que cubre todas las rutas de datos, lo que generalmente se conoce como protección de datos de extremo a extremo . [11]

La integridad de los datos aplicada a diversas industrias

  • La Administración de Alimentos y Medicamentos de los Estados Unidos ha creado un borrador de guía sobre la integridad de los datos para los fabricantes farmacéuticos que deben cumplir con el Código de Regulaciones Federales de los Estados Unidos, Título 21, CFR, Partes 210-212. [12] Fuera de los Estados Unidos, el Reino Unido (2015), Suiza (2016) y Australia (2017) han emitido una guía similar sobre la integridad de los datos. [13]
  • Varias normas para la fabricación de dispositivos médicos abordan la integridad de los datos de forma directa o indirecta, incluidas ISO 13485 , ISO 14155 e ISO 5840. [14]
  • A principios de 2017, la Autoridad Reguladora de la Industria Financiera (FINRA), al observar problemas de integridad de datos con los sistemas automatizados de comercio y vigilancia de movimientos de dinero, declaró que haría del "desarrollo de un programa de integridad de datos para monitorear la precisión de los datos presentados" una prioridad. [15] A principios de 2018, FINRA dijo que ampliaría su enfoque sobre la integridad de datos a las "políticas y procedimientos de gestión de cambios tecnológicos" de las empresas y las revisiones de los valores del Tesoro. [16]
  • Otros sectores, como la minería [17] y la fabricación de productos [18], se centran cada vez más en la importancia de la integridad de los datos en los activos asociados a la automatización y el monitoreo de la producción.
  • Los proveedores de almacenamiento en la nube se han enfrentado durante mucho tiempo a importantes desafíos para garantizar la integridad o procedencia de los datos de los clientes y rastrear las violaciones. [19] [20] [21]

Véase también

Referencias

  1. ^ Boritz, J. "Opiniones de los profesionales de sistemas de información sobre conceptos básicos de integridad de la información". Revista internacional de sistemas de información contable . Elsevier. Archivado desde el original el 5 de octubre de 2011. Consultado el 12 de agosto de 2011 .
  2. ^ ¿ Qué es la integridad de los datos? Aprenda a garantizar la integridad de los datos de las bases de datos mediante comprobaciones, pruebas y prácticas recomendadas
  3. ^ ¿ Qué es la integridad de los datos? Protección de datos 101
  4. ^ Del libro: Ubervigilancia y las implicaciones sociales de los implantes de microchip: Página emergente 40
  5. ^ Vijayan Prabhakaran (2006). "SISTEMAS DE ARCHIVOS DE HIERRO" (PDF) . Doctor en Filosofía en Ciencias de la Computación . Universidad de Wisconsin-Madison. Archivado (PDF) desde el original el 2022-10-09 . Consultado el 9 de junio de 2012 .
  6. ^ "Paridad perdida y paridad recuperada".
  7. ^ "Análisis de la corrupción de datos en la pila de almacenamiento" (PDF) . Archivado (PDF) desde el original el 2022-10-09.
  8. ^ "El impacto de la corrupción de discos en los DBMS de código abierto" (PDF) . Archivado (PDF) del original el 2022-10-09.
  9. ^ "Baarf.com". Baarf.com . Consultado el 4 de noviembre de 2011 .
  10. ^ Bierman, Margaret; Grimmer, Lenz (agosto de 2012). "Cómo utilizo las capacidades avanzadas de Btrfs" . Consultado el 2 de enero de 2014 .
  11. ^ Yupu Zhang; Abhishek Rajimwale; Andrea Arpaci-Dusseau ; Remzi H. Arpaci-Dusseau (2010). "Integridad de datos de extremo a extremo para sistemas de archivos: un estudio de caso de ZFS" (PDF) . Conferencia USENIX sobre tecnologías de archivos y almacenamiento . CiteSeerX 10.1.1.154.3979 . S2CID  5722163. Wikidata  Q111972797 . Consultado el 2 de enero de 2014 . 
  12. ^ "Integridad de datos y cumplimiento de las normas de buenas prácticas de fabricación: guía para la industria" (PDF) . Administración de Alimentos y Medicamentos de Estados Unidos. Abril de 2016. Archivado (PDF) desde el original el 2022-10-09 . Consultado el 20 de enero de 2018 .
  13. ^ Davidson, J. (18 de julio de 2017). "Guía de integridad de datos en todo el mundo". Contract Pharma . Rodman Media . Consultado el 20 de enero de 2018 .
  14. ^ Scannel, P. (12 de mayo de 2015). «Integridad de datos: una perspectiva desde el marco normativo y de estándares de los dispositivos médicos» (PDF) . Seminario sobre integridad de datos . Asociación de medicamentos parenterales. pp. 10–57. Archivado desde el original (PDF) el 20 de enero de 2018. Consultado el 20 de enero de 2018 .
  15. ^ Cook, R. (4 de enero de 2017). «Carta de prioridades regulatorias y de examen de 2017». Autoridad Reguladora de la Industria Financiera . Consultado el 20 de enero de 2018 .
  16. ^ Cook, R. (8 de enero de 2018). «Carta de prioridades regulatorias y de examen de 2018». Autoridad Reguladora de la Industria Financiera . Consultado el 20 de enero de 2018 .
  17. ^ "Integridad de datos: cómo permitir la toma de decisiones efectivas en las operaciones mineras" (PDF) . Accenture. 2016. Archivado (PDF) desde el original el 2022-10-09 . Consultado el 20 de enero de 2018 .
  18. ^ "La industria 4.0 y los sistemas ciberfísicos aumentan el imperativo de la integridad de los datos". Nymi Blog . Nymi, Inc. 24 de octubre de 2017 . Consultado el 20 de enero de 2018 .[ enlace muerto permanente ]
  19. ^ Priyadharshini, B.; Parvathi, P. (2012). "Integridad de datos en el almacenamiento en la nube". Actas de la Conferencia internacional de 2012 sobre avances en ingeniería, ciencia y gestión . ISBN 9788190904223.
  20. ^ Zafar, F.; Khan, A.; Malik, SUR; et al. (2017). "Un estudio de los esquemas de integridad de datos de computación en la nube: desafíos de diseño, taxonomía y tendencias futuras". Computers & Security . 65 (3): 29–49. doi :10.1016/j.cose.2016.10.006.
  21. ^ Imran, M.; Hlavacs, H.; Haq, IUI; et al. (2017). "Comprobación y verificación de la integridad de los datos basada en la procedencia en entornos de nube". PLOS ONE . ​​12 (5): e0177576. Bibcode :2017PLoSO..1277576I. doi : 10.1371/journal.pone.0177576 . PMC 5435237 . PMID  28545151. 
Obtenido de "https://es.wikipedia.org/w/index.php?title=Integridad_de_los_datos&oldid=1211946886"