Minería de datos

Proceso de extracción y descubrimiento de patrones en grandes conjuntos de datos.

La minería de datos es el proceso de extracción y descubrimiento de patrones en grandes conjuntos de datos que involucra métodos en la intersección del aprendizaje automático , las estadísticas y los sistemas de bases de datos . ^[1] La minería de datos es un subcampo interdisciplinario de la informática y la estadística con el objetivo general de extraer información (con métodos inteligentes) de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior. ^[1]^[2]^[3]^[4] La minería de datos es el paso de análisis del proceso de " descubrimiento de conocimiento en bases de datos ", o KDD. ^[5] Además del paso de análisis en bruto, también involucra aspectos de gestión de datos y bases de datos , preprocesamiento de datos , consideraciones de modelos e inferencias , métricas de interés, consideraciones de complejidad , posprocesamiento de estructuras descubiertas, visualización y actualización en línea . ^[1]

El término "minería de datos" es un nombre inapropiado porque el objetivo es la extracción de patrones y conocimiento de grandes cantidades de datos, no la extracción ( minería ) de los datos en sí . ^[6] También es una palabra de moda ^{[7] y se aplica con frecuencia a cualquier forma de}procesamiento de datos o información a gran escala ( recopilación , extracción , almacenamiento , análisis y estadísticas), así como a cualquier aplicación de sistema de soporte de decisiones por computadora , incluida la inteligencia artificial (por ejemplo, aprendizaje automático) y la inteligencia empresarial . A menudo, los términos más generales ( a gran escala ) análisis y analítica de datos —o, cuando se hace referencia a métodos reales, inteligencia artificial y aprendizaje automático— son más apropiados.

La tarea real de minería de datos es el análisis semiautomático o automático de grandes cantidades de datos para extraer patrones interesantes previamente desconocidos, como grupos de registros de datos ( análisis de conglomerados ), registros inusuales ( detección de anomalías ) y dependencias ( minería de reglas de asociación , minería de patrones secuenciales ). Esto generalmente implica el uso de técnicas de bases de datos como índices espaciales . Estos patrones pueden verse como una especie de resumen de los datos de entrada y pueden usarse en análisis posteriores o, por ejemplo, en aprendizaje automático y análisis predictivo . Por ejemplo, el paso de minería de datos puede identificar múltiples grupos en los datos, que luego pueden usarse para obtener resultados de predicción más precisos por parte de un sistema de soporte de decisiones . Ni la recopilación de datos, la preparación de datos ni la interpretación y presentación de resultados son parte del paso de minería de datos, aunque sí pertenecen al proceso general de KDD como pasos adicionales.

La diferencia entre el análisis de datos y la minería de datos es que el análisis de datos se utiliza para probar modelos e hipótesis en el conjunto de datos, por ejemplo, para analizar la eficacia de una campaña de marketing , independientemente de la cantidad de datos. Por el contrario, la minería de datos utiliza el aprendizaje automático y los modelos estadísticos para descubrir patrones clandestinos u ocultos en un gran volumen de datos. ^[8]

Los términos relacionados "dragado de datos" , "pesca de datos" y "espionaje de datos" se refieren al uso de métodos de minería de datos para tomar muestras de partes de un conjunto de datos de población más grande que son (o pueden ser) demasiado pequeñas para que se puedan hacer inferencias estadísticas confiables sobre la validez de los patrones descubiertos. Sin embargo, estos métodos se pueden utilizar para crear nuevas hipótesis para probarlas en poblaciones de datos más grandes.

Etimología

En la década de 1960, los estadísticos y economistas utilizaban términos como pesca de datos o dragado de datos para referirse a lo que consideraban la mala práctica de analizar datos sin una hipótesis a priori . El término "minería de datos" fue utilizado de manera igualmente crítica por el economista Michael Lovell en un artículo publicado en la Review of Economic Studies en 1983. ^[9]^[10] Lovell indica que la práctica "se disfraza bajo una variedad de alias, que van desde "experimentación" (positiva) hasta "pesca" o "fisgoneo" (negativo).

El término minería de datos apareció alrededor de 1990 en la comunidad de bases de datos, con connotaciones generalmente positivas. Durante un corto tiempo en la década de 1980, se utilizó la frase "minería de bases de datos"™, pero desde que fue registrada por HNC, una empresa con sede en San Diego , para promocionar su estación de trabajo de minería de bases de datos; ^[11] los investigadores en consecuencia recurrieron a la minería de datos . Otros términos utilizados incluyen arqueología de datos , recolección de información , descubrimiento de información , extracción de conocimiento , etc. Gregory Piatetsky-Shapiro acuñó el término "descubrimiento de conocimiento en bases de datos" para el primer taller sobre el mismo tema (KDD-1989) y este término se hizo más popular en las comunidades de inteligencia artificial y aprendizaje automático . Sin embargo, el término minería de datos se hizo más popular en las comunidades de negocios y prensa. ^[12] Actualmente, los términos minería de datos y descubrimiento de conocimiento se utilizan indistintamente.

Fondo

La extracción manual de patrones de los datos se ha producido durante siglos. Los primeros métodos de identificación de patrones en los datos incluyen el teorema de Bayes (1700) y el análisis de regresión (1800). ^[13] La proliferación, ubicuidad y creciente poder de la tecnología informática han aumentado drásticamente la capacidad de recopilación, almacenamiento y manipulación de datos. A medida que los conjuntos de datos han crecido en tamaño y complejidad, el análisis directo de datos "práctico" se ha visto aumentado cada vez más con el procesamiento indirecto y automatizado de datos, con la ayuda de otros descubrimientos en la ciencia informática, especialmente en el campo del aprendizaje automático, como las redes neuronales , el análisis de conglomerados , los algoritmos genéticos (1950), los árboles de decisión y las reglas de decisión (1960) y las máquinas de vectores de soporte (1990). La minería de datos es el proceso de aplicación de estos métodos con la intención de descubrir patrones ocultos. ^[14] en grandes conjuntos de datos. Cubre la brecha entre las estadísticas aplicadas y la inteligencia artificial (que generalmente proporcionan la base matemática) y la gestión de bases de datos explotando la forma en que los datos se almacenan e indexan en las bases de datos para ejecutar los algoritmos de aprendizaje y descubrimiento reales de manera más eficiente, lo que permite que dichos métodos se apliquen a conjuntos de datos cada vez más grandes.

Proceso

El proceso de descubrimiento de conocimiento en bases de datos (KDD) se define comúnmente con las etapas:

Selección
Preprocesamiento
Transformación
Minería de datos
Interpretación/evaluación. ^[5]

Sin embargo, existen muchas variantes de este tema, como el proceso estándar interindustrial para minería de datos (CRISP-DM), que define seis fases:

Comprensión empresarial
Comprensión de datos
Preparación de datos
Modelado
Evaluación
Despliegue

o un proceso simplificado como (1) Preprocesamiento, (2) Minería de datos y (3) Validación de resultados.

Las encuestas realizadas en 2002, 2004, 2007 y 2014 muestran que la metodología CRISP-DM es la metodología principal utilizada por los mineros de datos. ^[15]^[16]^[17]^[18]

El único otro estándar de minería de datos mencionado en estas encuestas fue SEMMA . Sin embargo, entre 3 y 4 veces más personas informaron que usaban CRISP-DM. Varios equipos de investigadores han publicado revisiones de modelos de procesos de minería de datos ^[19] , y Azevedo y Santos realizaron una comparación de CRISP-DM y SEMMA en 2008. ^[20]

Preprocesamiento

Antes de poder utilizar algoritmos de minería de datos, se debe reunir un conjunto de datos de destino. Como la minería de datos solo puede descubrir patrones realmente presentes en los datos, el conjunto de datos de destino debe ser lo suficientemente grande como para contener estos patrones y, al mismo tiempo, lo suficientemente conciso como para que se pueda extraer en un plazo aceptable. Una fuente común de datos es un almacén de datos o un depósito de datos . El preprocesamiento es esencial para analizar los conjuntos de datos multivariados antes de la minería de datos. A continuación, se limpia el conjunto de destino. La limpieza de datos elimina las observaciones que contienen ruido y aquellas con datos faltantes .

Minería de datos

La minería de datos implica seis clases comunes de tareas: ^[5]

Detección de anomalías (detección de valores atípicos/cambios/desviaciones): identificación de registros de datos inusuales que podrían ser interesantes o errores de datos que requieren mayor investigación debido a que están fuera del rango estándar.
Aprendizaje de reglas de asociación (modelado de dependencia): busca relaciones entre variables. Por ejemplo, un supermercado podría recopilar datos sobre los hábitos de compra de los clientes. Mediante el aprendizaje de reglas de asociación, el supermercado puede determinar qué productos se compran juntos con frecuencia y utilizar esta información con fines de marketing. Esto a veces se conoce como análisis de la cesta de la compra.
Agrupamiento : es la tarea de descubrir grupos y estructuras en los datos que sean de alguna manera u otra "similares", sin utilizar estructuras conocidas en los datos.
Clasificación : es la tarea de generalizar una estructura conocida para aplicarla a nuevos datos. Por ejemplo, un programa de correo electrónico podría intentar clasificar un correo electrónico como "legítimo" o como "spam".
Regresión : intenta encontrar una función que modele los datos con el menor error, es decir, para estimar las relaciones entre datos o conjuntos de datos.
Resumen : proporciona una representación más compacta del conjunto de datos, incluida la visualización y la generación de informes.

Validación de resultados

La minería de datos puede ser mal utilizada involuntariamente, produciendo resultados que parecen ser significativos pero que en realidad no predicen el comportamiento futuro y no pueden reproducirse en una nueva muestra de datos, por lo que tienen poca utilidad. Esto a veces se debe a que se investigan demasiadas hipótesis y no se realizan pruebas de hipótesis estadísticas adecuadas . Una versión simple de este problema en el aprendizaje automático se conoce como sobreajuste , pero el mismo problema puede surgir en diferentes fases del proceso y, por lo tanto, una división de entrenamiento/prueba, cuando sea aplicable, puede no ser suficiente para evitar que esto suceda. ^[21]

El paso final del descubrimiento de conocimiento a partir de los datos es verificar que los patrones producidos por los algoritmos de minería de datos se dan en el conjunto de datos más amplio. No todos los patrones encontrados por los algoritmos son necesariamente válidos. Es común que los algoritmos de minería de datos encuentren patrones en el conjunto de entrenamiento que no están presentes en el conjunto de datos general. Esto se llama sobreajuste . Para superar esto, la evaluación utiliza un conjunto de prueba de datos en el que no se entrenó el algoritmo de minería de datos. Los patrones aprendidos se aplican a este conjunto de prueba y el resultado resultante se compara con el resultado deseado. Por ejemplo, un algoritmo de minería de datos que intenta distinguir los correos electrónicos "spam" de los "legítimos" se entrenaría en un conjunto de entrenamiento de correos electrónicos de muestra. Una vez entrenado, los patrones aprendidos se aplicarían al conjunto de prueba de correos electrónicos en el que no se había entrenado. La precisión de los patrones se puede medir a partir de la cantidad de correos electrónicos que clasifican correctamente. Se pueden utilizar varios métodos estadísticos para evaluar el algoritmo, como las curvas ROC .

Si los patrones aprendidos no cumplen con los estándares deseados, es necesario reevaluar y cambiar los pasos de preprocesamiento y minería de datos. Si los patrones aprendidos cumplen con los estándares deseados, el paso final es interpretarlos y convertirlos en conocimiento.

Investigación

El principal organismo profesional en este campo es el Grupo de Interés Especial (SIG) sobre Descubrimiento de Conocimiento y Minería de Datos ( SIGKDD ) de la Asociación para Maquinaria Informática (ACM) . ^[22]^[23] Desde 1989, este SIG de la ACM ha organizado una conferencia internacional anual y ha publicado sus actas, ^[24] y desde 1999 ha publicado una revista académica bianual titulada "SIGKDD Explorations". ^[25]

Las conferencias de informática sobre minería de datos incluyen:

Conferencia CIKM – Conferencia ACM sobre Gestión de la Información y el Conocimiento
Conferencia europea sobre aprendizaje automático y principios y prácticas de descubrimiento de conocimientos en bases de datos
Conferencia KDD – Conferencia ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos

Los temas de minería de datos también están presentes en muchas conferencias sobre gestión de datos/bases de datos, como la Conferencia ICDE, la Conferencia SIGMOD y la Conferencia Internacional sobre Bases de Datos Muy Grandes .

Normas

Se han hecho algunos esfuerzos para definir estándares para el proceso de minería de datos, por ejemplo, el Proceso Estándar Interindustrial Europeo para Minería de Datos de 1999 (CRISP-DM 1.0) y el estándar de Minería de Datos Java de 2004 (JDM 1.0). El desarrollo de sucesores de estos procesos (CRISP-DM 2.0 y JDM 2.0) estuvo activo en 2006, pero se ha estancado desde entonces. JDM 2.0 fue retirado sin llegar a un borrador final.

Para intercambiar los modelos extraídos (en particular para su uso en análisis predictivos ), el estándar clave es el lenguaje de marcado de modelos predictivos (Predictive Model Markup Language , PMML), que es un lenguaje basado en XML desarrollado por el Data Mining Group (DMG) y que muchas aplicaciones de minería de datos admiten como formato de intercambio. Como sugiere el nombre, solo cubre los modelos de predicción, una tarea particular de minería de datos de gran importancia para las aplicaciones comerciales. Sin embargo, se han propuesto extensiones para cubrir (por ejemplo) la agrupación de subespacios independientemente del DMG. ^[26]

Usos notables

La minería de datos se utiliza allí donde hay datos digitales disponibles. Se pueden encontrar ejemplos notables de minería de datos en los ámbitos empresarial, médico, científico, financiero, de la construcción y de la vigilancia.

Preocupaciones sobre la privacidad y la ética

Si bien el término "minería de datos" en sí mismo puede no tener implicaciones éticas, a menudo se asocia con la extracción de información en relación con el comportamiento del usuario (ético y de otro tipo). ^[27]

Las formas en que se puede utilizar la minería de datos pueden, en algunos casos y contextos, plantear cuestiones relacionadas con la privacidad , la legalidad y la ética . ^[28] En particular, la minería de datos de conjuntos de datos gubernamentales o comerciales con fines de seguridad nacional o de aplicación de la ley , como en el Programa de Concienciación sobre la Información Total o en ADVISE , ha suscitado preocupaciones sobre la privacidad. ^[29]^[30]

La minería de datos requiere una preparación de los datos que permita descubrir información o patrones que comprometan las obligaciones de confidencialidad y privacidad . Una forma habitual de que esto ocurra es mediante la agregación de datos . La agregación de datos implica combinar datos (posiblemente de varias fuentes) de una manera que facilite el análisis (pero que también pueda hacer que la identificación de datos privados a nivel individual sea deducible o evidente de otro modo). ^[31] Esto no es minería de datos en sí , sino el resultado de la preparación de los datos antes del análisis y para los fines del mismo. La amenaza a la privacidad de un individuo entra en juego cuando los datos, una vez compilados, hacen que el minero de datos, o cualquier persona que tenga acceso al conjunto de datos recién compilado, pueda identificar a individuos específicos, especialmente cuando los datos eran originalmente anónimos. ^[32]

Se recomienda ^{[ ¿según quién? ]} tener en cuenta lo siguiente antes de recopilar datos: ^[31]

El propósito de la recopilación de datos y de cualquier proyecto de minería de datos (conocido).
Cómo se utilizarán los datos
¿Quién podrá extraer los datos y utilizarlos, así como sus derivados?
El estado de la seguridad en torno al acceso a los datos.
¿Cómo se pueden actualizar los datos recopilados?

Los datos también pueden modificarse para que se vuelvan anónimos, de modo que no sea fácil identificar a las personas. ^[31] Sin embargo, incluso los conjuntos de datos " anonimizados " pueden contener información suficiente para permitir la identificación de personas, como ocurrió cuando los periodistas pudieron encontrar a varias personas basándose en un conjunto de historiales de búsqueda que fueron publicados inadvertidamente por AOL. ^[33]

La revelación involuntaria de información personal que conduzca al proveedor viola las Prácticas Justas de Información. Esta indiscreción puede causar daño financiero, emocional o físico al individuo indicado. En un caso de violación de la privacidad , los clientes de Walgreens presentaron una demanda contra la empresa en 2011 por vender información de recetas a empresas de minería de datos que a su vez proporcionaron los datos a empresas farmacéuticas. ^[34]

Situación en Europa

Europa tiene leyes de privacidad bastante fuertes y se están realizando esfuerzos para fortalecer aún más los derechos de los consumidores. Sin embargo, los Principios de Puerto Seguro entre Estados Unidos y la Unión Europea , desarrollados entre 1998 y 2000, actualmente exponen de manera efectiva a los usuarios europeos a la explotación de la privacidad por parte de empresas estadounidenses. Como consecuencia de la divulgación de vigilancia global de Edward Snowden , ha habido un aumento del debate para revocar este acuerdo, ya que, en particular, los datos estarán completamente expuestos a la Agencia de Seguridad Nacional , y los intentos de llegar a un acuerdo con los Estados Unidos han fracasado. ^[35]

En el Reino Unido, en particular, se han dado casos de empresas que han utilizado la minería de datos como una forma de atraer a determinados grupos de clientes y obligarlos a pagar precios injustamente altos. Estos grupos suelen ser personas de un nivel socioeconómico bajo que no son conscientes de las formas en que pueden ser explotados en los mercados digitales. ^[36]

Situación en Estados Unidos

En Estados Unidos, el Congreso ha abordado las preocupaciones sobre la privacidad mediante la aprobación de controles regulatorios como la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA, por sus siglas en inglés). La HIPAA exige que las personas den su "consentimiento informado" con respecto a la información que proporcionan y a los usos presentes y futuros previstos. Según un artículo de Biotech Business Week , "en la práctica, la HIPAA puede no ofrecer mayor protección que las regulaciones de larga data en el ámbito de la investigación", dice la AAHC. Más importante aún, el objetivo de la norma de protección a través del consentimiento informado es acercarse a un nivel de incomprensibilidad para las personas promedio". ^[37] Esto subraya la necesidad de anonimato de los datos en las prácticas de agregación y extracción de datos.

La legislación estadounidense sobre privacidad de la información, como la HIPAA y la Ley de Derechos Educativos y Privacidad de la Familia (FERPA), se aplica únicamente a las áreas específicas que aborda cada una de esas leyes. El uso de la minería de datos por parte de la mayoría de las empresas de los EE. UU. no está controlado por ninguna legislación.

Ley de derechos de autor

Situación en Europa

Según las leyes europeas sobre bases de datos con derechos de autor , la minería de obras protegidas por derechos de autor (como la minería web ) sin el permiso del propietario de los derechos de autor no es legal. Cuando una base de datos es pura información en Europa, puede ser que no haya derechos de autor, pero pueden existir derechos de base de datos, por lo que la minería de datos queda sujeta a los derechos de propiedad intelectual de los propietarios que están protegidos por la Directiva sobre bases de datos . Por recomendación de la revisión de Hargreaves, esto llevó al gobierno del Reino Unido a modificar su ley de derechos de autor en 2014 para permitir la minería de contenidos como limitación y excepción . ^[38] El Reino Unido fue el segundo país del mundo en hacerlo después de Japón, que introdujo una excepción en 2009 para la minería de datos. Sin embargo, debido a la restricción de la Directiva de la Sociedad de la Información (2001), la excepción del Reino Unido solo permite la minería de contenidos con fines no comerciales. La ley de derechos de autor del Reino Unido tampoco permite que esta disposición sea anulada por los términos y condiciones contractuales. Desde 2020, Suiza también ha estado regulando la minería de datos permitiéndola en el campo de la investigación bajo ciertas condiciones establecidas por el art. 24d de la Ley de Derechos de Autor Suiza. Este nuevo artículo entró en vigor el 1 de abril de 2020. ^[39]

En 2013, la Comisión Europea facilitó el debate entre las partes interesadas sobre la minería de textos y datos, bajo el título Licencias para Europa. ^[40] El enfoque en la solución de esta cuestión jurídica, como la concesión de licencias en lugar de las limitaciones y excepciones, llevó a los representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013. ^[41]

Situación en Estados Unidos

La ley de derechos de autor de los Estados Unidos , y en particular su disposición sobre el uso justo , defiende la legalidad de la minería de contenidos en los Estados Unidos y en otros países donde se aplica el uso justo, como Israel, Taiwán y Corea del Sur. Como la minería de contenidos es transformadora, es decir, no suplanta la obra original, se considera legal en virtud del uso justo. Por ejemplo, como parte del acuerdo de Google Book, el juez que presidía el caso dictaminó que el proyecto de digitalización de libros protegidos por derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de los cuales era la minería de textos y datos. ^[42]

Software

Software y aplicaciones de minería de datos gratuitos y de código abierto

Las siguientes aplicaciones están disponibles bajo licencias de código abierto o gratuito. También se encuentra disponible el acceso público al código fuente de las aplicaciones.

Carrot2 : Marco de agrupamiento de texto y resultados de búsqueda.
Chemicalize.org : un minero de estructuras químicas y un motor de búsqueda web.
ELKI : Un proyecto de investigación universitaria con métodos avanzados de análisis de conglomerados y detección de valores atípicos escritos en el lenguaje Java .
GATE : una herramienta de procesamiento del lenguaje natural e ingeniería del lenguaje.
KNIME : Konstanz Information Miner, un marco de análisis de datos completo y fácil de usar.
Análisis masivo en línea (MOA) : una herramienta de minería de flujo de big data en tiempo real con deriva de conceptos en el lenguaje de programación Java .
MEPX : herramienta multiplataforma para problemas de regresión y clasificación basada en una variante de Programación Genética.
mlpack : una colección de algoritmos de aprendizaje automático listos para usar escritos en el lenguaje C++ .
NLTK ( Natural Language Toolkit ): un conjunto de bibliotecas y programas para el procesamiento del lenguaje natural (PLN) simbólico y estadístico para el lenguaje Python .
OpenNN : Biblioteca de redes neuronales abiertas.
Orange : un paquete de software de minería de datos y aprendizaje automático basado en componentes escrito en el lenguaje Python .
PSPP : software de minería de datos y estadísticas del Proyecto GNU similar a SPSS
R : Lenguaje de programación y entorno de software para computación estadística , minería de datos y gráficos. Forma parte del Proyecto GNU .
scikit-learn : una biblioteca de aprendizaje automático de código abierto para el lenguaje de programación Python;
Torch : una biblioteca de aprendizaje profundo de código abierto para el lenguaje de programación Lua y un marco de computación científica con amplio soporte para algoritmos de aprendizaje automático .
UIMA : UIMA (Unstructured Information Management Architecture) es un marco de componentes para analizar contenido no estructurado, como texto, audio y vídeo, desarrollado originalmente por IBM.
Weka : un conjunto de aplicaciones de software de aprendizaje automático escritas en el lenguaje de programación Java .

Software y aplicaciones de minería de datos propietarios

Las siguientes aplicaciones están disponibles bajo licencias propietarias.

Angoss KnowledgeSTUDIO: herramienta de minería de datos
LIONsolver : una aplicación de software integrada para minería de datos, inteligencia empresarial y modelado que implementa el enfoque de aprendizaje y optimización inteligente (LION).
PolyAnalyst : software de minería de datos y texto de Megaputer Intelligence.
Microsoft Analysis Services : software de minería de datos proporcionado por Microsoft .
NetOwl : conjunto de productos de análisis de texto y entidades multilingües que permiten la minería de datos.
Oracle Data Mining : software de minería de datos de Oracle Corporation .
PSeven : plataforma para la automatización de simulación y análisis de ingeniería, optimización multidisciplinaria y minería de datos proporcionada por DATADVANCE .
Qlucore Omics Explorer: software de minería de datos.
RapidMiner : un entorno para experimentos de aprendizaje automático y minería de datos.
SAS Enterprise Miner : software de minería de datos proporcionado por SAS Institute .
SPSS Modeler : software de minería de datos proporcionado por IBM .
STATISTICA Data Miner: software de minería de datos proporcionado por StatSoft .
Tanagra : Software de minería de datos orientado a la visualización, también para docencia.
Vertica : software de minería de datos proporcionado por Hewlett-Packard .
Google Cloud Platform : modelos de ML personalizados automatizados administrados por Google .
Amazon SageMaker : servicio administrado proporcionado por Amazon para crear y poner en producción modelos de ML personalizados.

Véase también

Métodos

Dominios de aplicación

Ejemplos de aplicación

Temas relacionados

Para obtener más información sobre cómo extraer información de los datos (en lugar de analizarlos ), consulte:

Otros recursos

Revista internacional de almacenamiento y minería de datos

Referencias

^ abc "Plan de estudios de minería de datos". ACM SIGKDD . 2006-04-30. Archivado desde el original el 2013-10-14 . Consultado el 2014-01-27 .
^ Clifton, Christopher (2010). «Encyclopædia Britannica: Definición de minería de datos». Archivado desde el original el 5 de febrero de 2011. Consultado el 9 de diciembre de 2010 .
^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2009). "Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción". Archivado desde el original el 10 de noviembre de 2009. Consultado el 7 de agosto de 2012 .
^ Han, Jaiwei ; Kamber, Micheline; Pei, Jian (2011). Minería de datos: conceptos y técnicas (3.ª ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
^ abc Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic (1996). "De la minería de datos al descubrimiento de conocimiento en bases de datos" (PDF) . Archivado (PDF) desde el original el 2022-10-09 . Consultado el 17 de diciembre de 2008 .
^ Han, Jiawei ; Kamber, Micheline (2001). Minería de datos: conceptos y técnicas . Morgan Kaufman . pag. 5.ISBN 978-1-55860-489-6Por lo tanto , la minería de datos debería haberse denominado más apropiadamente "minería de conocimiento a partir de datos", que lamentablemente es un término un poco largo.
^ Conferencia de otoño de OKAIRP 2005, Universidad Estatal de Arizona Archivado el 1 de febrero de 2014 en Wayback Machine.
^ Olson, DL (2007). Minería de datos en servicios empresariales. Service Business , 1 (3), 181–193. doi :10.1007/s11628-006-0014-7
^ Lovell, Michael C. (1983). "Minería de datos". Revista de Economía y Estadística . 65 (1): 1–12. doi :10.2307/1924403. JSTOR 1924403.
^ Charemza, Wojciech W.; Deadman, Derek F. (1992). "Minería de datos". Nuevas direcciones en la práctica econométrica . Aldershot: Edward Elgar. págs. 14-31. ISBN 1-85278-461-X.
^ Mena, Jesús (2011). Aprendizaje automático forense para la aplicación de la ley, la seguridad y la inteligencia . Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
^ Piatetsky-Shapiro, Gregory ; Parker, Gary (2011). "Lección: Minería de datos y descubrimiento de conocimiento: una introducción". Introducción a la minería de datos . KD Nuggets. Archivado desde el original el 30 de agosto de 2012 . Consultado el 30 de agosto de 2012 .
^ Coenen, Frans (7 de febrero de 2011). «Minería de datos: pasado, presente y futuro». The Knowledge Engineering Review . 26 (1): 25–29. doi :10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637. Archivado desde el original el 2 de julio de 2023 . Consultado el 4 de septiembre de 2021 .
^ Kantardzic, Mehmed (2003). Minería de datos: conceptos, modelos, métodos y algoritmos . John Wiley & Sons. ISBN 978-0-471-22852-3.OCLC 50055336 .
^ "¿Qué metodología principal está utilizando para la minería de datos (2002)?". KDnuggets . 2002. Archivado desde el original el 16 de enero de 2017 . Consultado el 29 de diciembre de 2023 .
^ "¿Qué metodología principal está utilizando para la minería de datos (2004)?". KDnuggets . 2004. Archivado desde el original el 8 de febrero de 2017 . Consultado el 29 de diciembre de 2023 .
^ "¿Qué metodología principal está utilizando para la minería de datos (2007)?". KDnuggets . 2007. Archivado desde el original el 17 de noviembre de 2012 . Consultado el 29 de diciembre de 2023 .
^ "¿Qué metodología principal estás utilizando para la minería de datos (2014)?". KDnuggets . 2014. Archivado desde el original el 1 de agosto de 2016 . Consultado el 29 de diciembre de 2023 .
^ Lukasz Kurgan y Petr Musilek: "Un estudio de los modelos de procesos de descubrimiento de conocimiento y minería de datos" Archivado el 26 de mayo de 2013 en Wayback Machine . The Knowledge Engineering Review . Volumen 21, número 1, marzo de 2006, págs. 1–24, Cambridge University Press, Nueva York, doi :10.1017/S0269888906000737
^ Azevedo, A. y Santos, MF KDD, SEMMA y CRISP-DM: una visión general paralela Archivado el 9 de enero de 2013 en Wayback Machine . En Actas de la Conferencia Europea IADIS sobre Minería de Datos 2008, págs. 182-185.
^ Hawkins, Douglas M (2004). "El problema del sobreajuste". Revista de información química y ciencias de la computación . 44 (1): 1–12. doi :10.1021/ci0342472. PMID 14741005. S2CID 12440383.
^ "Microsoft Academic Search: Principales conferencias sobre minería de datos". Microsoft Academic Search . Archivado desde el original el 19 de noviembre de 2014. Consultado el 13 de junio de 2014 .
^ "Google Scholar: Principales publicaciones - Minería y análisis de datos". Google Scholar . Archivado desde el original el 2023-02-10 . Consultado el 2022-06-11 .
^ Actas archivadas el 30 de abril de 2010 en Wayback Machine , Conferencias internacionales sobre descubrimiento de conocimiento y minería de datos, ACM, Nueva York.
^ Exploraciones SIGKDD Archivado el 29 de julio de 2010 en Wayback Machine , ACM, Nueva York.
^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "Una extensión del estándar PMML a los modelos de agrupamiento de subespacios". Actas del taller de 2011 sobre modelado de lenguaje de marcado predictivo . p. 48. doi :10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. Número de identificación del sujeto 14967969.
^ Seltzer, William (2005). "La promesa y las trampas de la minería de datos: cuestiones éticas" (PDF) . Sección de Estadísticas Gubernamentales de la ASA . Asociación Estadounidense de Estadística. Archivado (PDF) desde el original el 9 de octubre de 2022.
^ Pitts, Chip (15 de marzo de 2007). "¿El fin del espionaje doméstico ilegal? No cuenten con ello". Washington Spectator . Archivado desde el original el 28 de noviembre de 2007.
^ Taipale, Kim A. (15 de diciembre de 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data" (Minería de datos y seguridad doméstica: conectar los puntos para dar sentido a los datos). Columbia Science and Technology Law Review . 5 (2). OCLC 45263753. SSRN 546782. Archivado desde el original el 5 de noviembre de 2014 . Consultado el 21 de abril de 2004 .
^ Resig, John. "Un marco para la minería de datos en servicios de mensajería instantánea" (PDF) . Archivado (PDF) del original el 2022-10-09 . Consultado el 16 de marzo de 2018 .
^ abc Piense antes de excavar: implicaciones de privacidad de la minería y agregación de datos Archivado el 17 de diciembre de 2008 en Wayback Machine , Informe de investigación de NASCIO, septiembre de 2004
^ Ohm, Paul. "No construyas una base de datos de la ruina". Harvard Business Review .
^ Los datos de búsqueda de AOL identificaron a personas Archivado el 6 de enero de 2010 en Wayback Machine , SecurityFocus, agosto de 2006
^ Kshetri, Nir (2014). "El impacto de los macrodatos en la privacidad, la seguridad y el bienestar del consumidor" (PDF) . Política de telecomunicaciones . 38 (11): 1134–1145. doi :10.1016/j.telpol.2014.10.002. Archivado (PDF) desde el original el 19 de junio de 2018. Consultado el 20 de abril de 2018 .
^ Weiss, Martin A.; Archick, Kristin (19 de mayo de 2016). «Privacidad de datos entre Estados Unidos y la Unión Europea: de Safe Harbor a Privacy Shield». Servicio de Investigación del Congreso de Washington, DC. pág. 6. R44257. Archivado desde el original (PDF) el 9 de abril de 2020. Consultado el 9 de abril de 2020. El 6 de octubre de 2015, el TJUE ... emitió una decisión que invalidó Safe Harbor (con efecto inmediato), tal como se implementa actualmente.
^ Parker, George (30 de septiembre de 2018). «Empresas del Reino Unido en la mira por utilizar big data para explotar a sus clientes». Financial Times . Archivado desde el original el 10 de diciembre de 2022. Consultado el 4 de diciembre de 2022 .
^ Editores de Biotech Business Week (30 de junio de 2008); BIOMEDICINA; La regla de privacidad de HIPAA impide la investigación biomédica , Biotech Business Week, recuperado el 17 de noviembre de 2009 de LexisNexis Academic
^ Investigadores del Reino Unido obtienen derechos de minería de datos según las nuevas leyes de derechos de autor del Reino Unido. Archivado el 9 de junio de 2014 en Wayback Machine Out-Law.com. Consultado el 14 de noviembre de 2014
^ "Fedlex". Archivado desde el original el 16 de diciembre de 2021. Consultado el 16 de diciembre de 2021 .
^ "Licencias para Europa – Diálogo estructurado con las partes interesadas 2013". Comisión Europea . Archivado desde el original el 23 de marzo de 2013. Consultado el 14 de noviembre de 2014 .
^ "Text and Data Mining: Its importance and the need for change in Europe" (Minería de textos y datos: su importancia y la necesidad de cambio en Europa). Asociación de Bibliotecas de Investigación Europeas . Archivado desde el original el 29 de noviembre de 2014. Consultado el 14 de noviembre de 2014 .
^ "Juez concede sentencia sumaria a favor de Google Books: una victoria por uso legítimo". Lexology.com . Antonelli Law Ltd. 19 de noviembre de 2013. Archivado desde el original el 29 de noviembre de 2014 . Consultado el 14 de noviembre de 2014 .

Lectura adicional

Cabeña, Pedro; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Descubriendo la minería de datos: del concepto a la implementación , Prentice Hall , ISBN 0-13-743980-6
MS Chen, J. Han, PS Yu (1996) "Minería de datos: una descripción general desde una perspectiva de base de datos Archivado el 3 de marzo de 2016 en Wayback Machine ". Conocimiento e ingeniería de datos, IEEE Transactions on 8 (6), 866–883
Feldman, Ronen; Sanger, James (2007); Manual de minería de textos , Cambridge University Press , ISBN 978-0-521-83657-9
Guo, Yike; y Grossman, Robert (editores) (1999); Minería de datos de alto rendimiento: algoritmos de escalado, aplicaciones y sistemas , Kluwer Academic Publishers
Han, Jiawei , Micheline Kamber y Jian Pei. Minería de datos: conceptos y técnicas . Morgan Kaufmann, 2006.
Hastie, Trevor , Tibshirani, Robert y Friedman, Jerome (2001); Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción , Springer, ISBN 0-387-95284-5
Liu, Bing (2007, 2011); Minería de datos web: exploración de hipervínculos, contenidos y datos de uso , Springer , ISBN 3-540-37881-2
Murphy, Chris (16 de mayo de 2011). "¿La minería de datos es libertad de expresión?". InformationWeek : 12.
Nisbet, Robert; Elder, John; Miner, Gary (2009); Manual de análisis estadístico y aplicaciones de minería de datos , Academic Press /Elsevier, ISBN 978-0-12-374765-5
Poncelet, Pascal; Masseglia, Florent; y Teisseire, Maguelonne (editores) (octubre de 2007); "Patrones de minería de datos: nuevos métodos y aplicaciones", Information Science Reference , ISBN 978-1-59904-162-9
Tan, Pang Ning; Steinbach, Michael; y Kumar, Vipin (2005); Introducción a la minería de datos , ISBN 0-321-32136-7
Theodoridis, Sergios; y Koutroumbas, Konstantinos (2009); Reconocimiento de patrones , 4.ª edición, Academic Press, ISBN 978-1-59749-272-0
Weiss, Sholom M.; y Indurkhya, Nitin (1998); Minería de datos predictivos , Morgan Kaufmann
Witten, Ian H .; Frank, Eibe; Hall, Mark A. (30 de enero de 2011). Minería de datos: herramientas y técnicas prácticas de aprendizaje automático (3.ª edición). Elsevier. ISBN 978-0-12-374856-0.(Ver también software gratuito Weka )
Ye, Nong (2003); Manual de minería de datos , Mahwah, NJ: Lawrence Erlbaum

Enlaces externos

[acm-1] "Plan de estudios de minería de datos". ACM SIGKDD . 2006-04-30. Archivado desde el original el 2013-10-14 . Consultado el 2014-01-27 .

[brittanica-2] Clifton, Christopher (2010). «Encyclopædia Britannica: Definición de minería de datos». Archivado desde el original el 5 de febrero de 2011. Consultado el 9 de diciembre de 2010 .

[elements-3] Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2009). "Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción". Archivado desde el original el 10 de noviembre de 2009. Consultado el 7 de agosto de 2012 .

[4] Han, Jaiwei ; Kamber, Micheline; Pei, Jian (2011). Minería de datos: conceptos y técnicas (3.ª ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.

[Fayyad-5] Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic (1996). "De la minería de datos al descubrimiento de conocimiento en bases de datos" (PDF) . Archivado (PDF) desde el original el 2022-10-09 . Consultado el 17 de diciembre de 2008 .

[han-kamber-6] Han, Jiawei ; Kamber, Micheline (2001). Minería de datos: conceptos y técnicas . Morgan Kaufman . pag. 5.ISBN 978-1-55860-489-6Por lo tanto , la minería de datos debería haberse denominado más apropiadamente "minería de conocimiento a partir de datos", que lamentablemente es un término un poco largo.

[7] Conferencia de otoño de OKAIRP 2005, Universidad Estatal de Arizona Archivado el 1 de febrero de 2014 en Wayback Machine.

[8] Olson, DL (2007). Minería de datos en servicios empresariales. Service Business , 1 (3), 181–193. doi :10.1007/s11628-006-0014-7

[9] Lovell, Michael C. (1983). "Minería de datos". Revista de Economía y Estadística . 65 (1): 1–12. doi :10.2307/1924403. JSTOR 1924403.

[10] Charemza, Wojciech W.; Deadman, Derek F. (1992). "Minería de datos". Nuevas direcciones en la práctica econométrica . Aldershot: Edward Elgar. págs. 14-31. ISBN 1-85278-461-X.

[Mena-11] Mena, Jesús (2011). Aprendizaje automático forense para la aplicación de la ley, la seguridad y la inteligencia . Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.

[12] Piatetsky-Shapiro, Gregory ; Parker, Gary (2011). "Lección: Minería de datos y descubrimiento de conocimiento: una introducción". Introducción a la minería de datos . KD Nuggets. Archivado desde el original el 30 de agosto de 2012 . Consultado el 30 de agosto de 2012 .

[13] Coenen, Frans (7 de febrero de 2011). «Minería de datos: pasado, presente y futuro». The Knowledge Engineering Review . 26 (1): 25–29. doi :10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637. Archivado desde el original el 2 de julio de 2023 . Consultado el 4 de septiembre de 2021 .

[Kantardzic-14] Kantardzic, Mehmed (2003). Minería de datos: conceptos, modelos, métodos y algoritmos . John Wiley & Sons. ISBN 978-0-471-22852-3.OCLC 50055336 .

[KDN_1-15] "¿Qué metodología principal está utilizando para la minería de datos (2002)?". KDnuggets . 2002. Archivado desde el original el 16 de enero de 2017 . Consultado el 29 de diciembre de 2023 .

[KDN_2-16] "¿Qué metodología principal está utilizando para la minería de datos (2004)?". KDnuggets . 2004. Archivado desde el original el 8 de febrero de 2017 . Consultado el 29 de diciembre de 2023 .

[KDN_3-17] "¿Qué metodología principal está utilizando para la minería de datos (2007)?". KDnuggets . 2007. Archivado desde el original el 17 de noviembre de 2012 . Consultado el 29 de diciembre de 2023 .

[KDN_4-18] "¿Qué metodología principal estás utilizando para la minería de datos (2014)?". KDnuggets . 2014. Archivado desde el original el 1 de agosto de 2016 . Consultado el 29 de diciembre de 2023 .

[kurgan-19] Lukasz Kurgan y Petr Musilek: "Un estudio de los modelos de procesos de descubrimiento de conocimiento y minería de datos" Archivado el 26 de mayo de 2013 en Wayback Machine . The Knowledge Engineering Review . Volumen 21, número 1, marzo de 2006, págs. 1–24, Cambridge University Press, Nueva York, doi :10.1017/S0269888906000737

[AzevedoSantos-20] Azevedo, A. y Santos, MF KDD, SEMMA y CRISP-DM: una visión general paralela Archivado el 9 de enero de 2013 en Wayback Machine . En Actas de la Conferencia Europea IADIS sobre Minería de Datos 2008, págs. 182-185.

[hawkins-21] Hawkins, Douglas M (2004). "El problema del sobreajuste". Revista de información química y ciencias de la computación . 44 (1): 1–12. doi :10.1021/ci0342472. PMID 14741005. S2CID 12440383.

[22] "Microsoft Academic Search: Principales conferencias sobre minería de datos". Microsoft Academic Search . Archivado desde el original el 19 de noviembre de 2014. Consultado el 13 de junio de 2014 .

[23] "Google Scholar: Principales publicaciones - Minería y análisis de datos". Google Scholar . Archivado desde el original el 2023-02-10 . Consultado el 2022-06-11 .

[24] Actas archivadas el 30 de abril de 2010 en Wayback Machine , Conferencias internacionales sobre descubrimiento de conocimiento y minería de datos, ACM, Nueva York.

[25] Exploraciones SIGKDD Archivado el 29 de julio de 2010 en Wayback Machine , ACM, Nueva York.

[26] Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "Una extensión del estándar PMML a los modelos de agrupamiento de subespacios". Actas del taller de 2011 sobre modelado de lenguaje de marcado predictivo . p. 48. doi :10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. Número de identificación del sujeto 14967969.

[27] Seltzer, William (2005). "La promesa y las trampas de la minería de datos: cuestiones éticas" (PDF) . Sección de Estadísticas Gubernamentales de la ASA . Asociación Estadounidense de Estadística. Archivado (PDF) desde el original el 9 de octubre de 2022.

[28] Pitts, Chip (15 de marzo de 2007). "¿El fin del espionaje doméstico ilegal? No cuenten con ello". Washington Spectator . Archivado desde el original el 28 de noviembre de 2007.

[29] Taipale, Kim A. (15 de diciembre de 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data" (Minería de datos y seguridad doméstica: conectar los puntos para dar sentido a los datos). Columbia Science and Technology Law Review . 5 (2). OCLC 45263753. SSRN 546782. Archivado desde el original el 5 de noviembre de 2014 . Consultado el 21 de abril de 2004 .

[30] Resig, John. "Un marco para la minería de datos en servicios de mensajería instantánea" (PDF) . Archivado (PDF) del original el 2022-10-09 . Consultado el 16 de marzo de 2018 .

[NASCIO-31] Piense antes de excavar: implicaciones de privacidad de la minería y agregación de datos Archivado el 17 de diciembre de 2008 en Wayback Machine , Informe de investigación de NASCIO, septiembre de 2004

[32] Ohm, Paul. "No construyas una base de datos de la ruina". Harvard Business Review .

[33] Los datos de búsqueda de AOL identificaron a personas Archivado el 6 de enero de 2010 en Wayback Machine , SecurityFocus, agosto de 2006

[34] Kshetri, Nir (2014). "El impacto de los macrodatos en la privacidad, la seguridad y el bienestar del consumidor" (PDF) . Política de telecomunicaciones . 38 (11): 1134–1145. doi :10.1016/j.telpol.2014.10.002. Archivado (PDF) desde el original el 19 de junio de 2018. Consultado el 20 de abril de 2018 .

[35] Weiss, Martin A.; Archick, Kristin (19 de mayo de 2016). «Privacidad de datos entre Estados Unidos y la Unión Europea: de Safe Harbor a Privacy Shield». Servicio de Investigación del Congreso de Washington, DC. pág. 6. R44257. Archivado desde el original (PDF) el 9 de abril de 2020. Consultado el 9 de abril de 2020. El 6 de octubre de 2015, el TJUE ... emitió una decisión que invalidó Safe Harbor (con efecto inmediato), tal como se implementa actualmente.

[36] Parker, George (30 de septiembre de 2018). «Empresas del Reino Unido en la mira por utilizar big data para explotar a sus clientes». Financial Times . Archivado desde el original el 10 de diciembre de 2022. Consultado el 4 de diciembre de 2022 .

[37] Editores de Biotech Business Week (30 de junio de 2008); BIOMEDICINA; La regla de privacidad de HIPAA impide la investigación biomédica , Biotech Business Week, recuperado el 17 de noviembre de 2009 de LexisNexis Academic

[38] Investigadores del Reino Unido obtienen derechos de minería de datos según las nuevas leyes de derechos de autor del Reino Unido. Archivado el 9 de junio de 2014 en Wayback Machine Out-Law.com. Consultado el 14 de noviembre de 2014

[39] "Fedlex". Archivado desde el original el 16 de diciembre de 2021. Consultado el 16 de diciembre de 2021 .

[40] "Licencias para Europa – Diálogo estructurado con las partes interesadas 2013". Comisión Europea . Archivado desde el original el 23 de marzo de 2013. Consultado el 14 de noviembre de 2014 .

[41] "Text and Data Mining: Its importance and the need for change in Europe" (Minería de textos y datos: su importancia y la necesidad de cambio en Europa). Asociación de Bibliotecas de Investigación Europeas . Archivado desde el original el 29 de noviembre de 2014. Consultado el 14 de noviembre de 2014 .

[42] "Juez concede sentencia sumaria a favor de Google Books: una victoria por uso legítimo". Lexology.com . Antonelli Law Ltd. 19 de noviembre de 2013. Archivado desde el original el 29 de noviembre de 2014 . Consultado el 14 de noviembre de 2014 .