Procesamiento analítico en línea

Modo de procesamiento

En informática , el procesamiento analítico en línea u OLAP ( / ˈoʊlæp / ) , es un enfoque para responder rápidamente a consultas analíticas multidimensionales (MDA). [1] El término OLAP se creó como una ligera modificación del término de base de datos tradicional procesamiento de transacciones en línea (OLTP). [2] OLAP es parte de la categoría más amplia de inteligencia empresarial , que también abarca bases de datos relacionales , redacción de informes y minería de datos . [3] Las aplicaciones típicas de OLAP incluyen informes comerciales para ventas, marketing , informes de gestión, gestión de procesos comerciales (BPM), [4] presupuestación y previsión , informes financieros y áreas similares, con nuevas aplicaciones emergentes, como la agricultura . [5]

Las herramientas OLAP permiten a los usuarios analizar datos multidimensionales de forma interactiva desde múltiples perspectivas. OLAP consta de tres operaciones analíticas básicas: consolidación (roll-up), desglose y segmentación. [6] : 402–403  La consolidación implica la agregación de datos que se pueden acumular y calcular en una o más dimensiones. Por ejemplo, todas las oficinas de ventas se agrupan en el departamento de ventas o la división de ventas para anticipar las tendencias de ventas. Por el contrario, el desglose es una técnica que permite a los usuarios navegar por los detalles. Por ejemplo, los usuarios pueden ver las ventas por productos individuales que componen las ventas de una región. La segmentación es una característica mediante la cual los usuarios pueden extraer (segmentar) un conjunto específico de datos del cubo OLAP y ver (dividir) las porciones desde diferentes puntos de vista. Estos puntos de vista a veces se denominan dimensiones (como mirar las mismas ventas por vendedor, o por fecha, o por cliente, o por producto, o por región, etc.).

Las bases de datos configuradas para OLAP utilizan un modelo de datos multidimensional, lo que permite realizar consultas analíticas y ad hoc complejas con un tiempo de ejecución rápido. [7] Toman prestados aspectos de bases de datos de navegación , bases de datos jerárquicas y bases de datos relacionales.

OLAP se suele contrastar con OLTP (procesamiento de transacciones en línea), que generalmente se caracteriza por consultas mucho menos complejas, en un mayor volumen, para procesar transacciones en lugar de con fines de inteligencia empresarial o generación de informes. Mientras que los sistemas OLAP están optimizados principalmente para la lectura, OLTP tiene que procesar todo tipo de consultas (lectura, inserción, actualización y eliminación).

Descripción general de los sistemas OLAP

En el núcleo de cualquier sistema OLAP se encuentra un cubo OLAP (también llamado "cubo multidimensional" o hipercubo ). Consiste en hechos numéricos llamados medidas que se clasifican por dimensiones . Las medidas se colocan en las intersecciones del hipercubo, que está abarcado por las dimensiones como un espacio vectorial . La interfaz habitual para manipular un cubo OLAP es una interfaz matricial, como las tablas dinámicas en un programa de hoja de cálculo, que realiza operaciones de proyección a lo largo de las dimensiones, como agregación o promedio.

Los metadatos del cubo se crean normalmente a partir de un esquema en estrella o en forma de copo de nieve o de una constelación de hechos de tablas en una base de datos relacional . Las medidas se derivan de los registros de la tabla de hechos y las dimensiones se derivan de las tablas de dimensiones .

Se puede pensar que cada medida tiene un conjunto de etiquetas o metadatos asociados. Una dimensión es lo que describe estas etiquetas ; proporciona información sobre la medida .

Un ejemplo sencillo sería un cubo que contiene las ventas de una tienda como medida y la fecha y la hora como dimensión . Cada venta tiene una etiqueta de fecha y hora que describe más sobre esa venta.

Por ejemplo:

Tabla de datos de ventas+-------------+----------+| monto_venta | id_tiempo |+-------------+----------+ Dimensión temporal| 2008.10| 1234 |----+ +---------+-------------------++-------------+----------+ | | id_de_tiempo | marca de tiempo | | +---------+---------------------------------+ +---->| 1234 | 20080902 12:35:43 | +---------+---------------------------------+

Bases de datos multidimensionales

La estructura multidimensional se define como "una variación del modelo relacional que utiliza estructuras multidimensionales para organizar datos y expresar las relaciones entre los datos". [6] : 177  La estructura se divide en cubos y los cubos pueden almacenar y acceder a los datos dentro de los confines de cada cubo. "Cada celda dentro de una estructura multidimensional contiene datos agregados relacionados con elementos a lo largo de cada una de sus dimensiones". [6] : 178  Incluso cuando se manipulan los datos, sigue siendo fácil acceder a ellos y sigue constituyendo un formato de base de datos compacto. Los datos siguen estando interrelacionados. La estructura multidimensional es bastante popular para las bases de datos analíticas que utilizan aplicaciones de procesamiento analítico en línea (OLAP). [6] Las bases de datos analíticas utilizan estas bases de datos debido a su capacidad para proporcionar respuestas a consultas comerciales complejas con rapidez. Los datos se pueden ver desde diferentes ángulos, lo que proporciona una perspectiva más amplia de un problema a diferencia de otros modelos. [8]

Agregaciones

Se ha afirmado que para consultas complejas, los cubos OLAP pueden producir una respuesta en alrededor del 0,1 % del tiempo requerido para la misma consulta en datos relacionales OLTP . [9] [10] El mecanismo más importante en OLAP que le permite lograr dicho rendimiento es el uso de agregaciones . Las agregaciones se crean a partir de la tabla de hechos cambiando la granularidad en dimensiones específicas y agregando datos a lo largo de estas dimensiones, utilizando una función de agregación (o función de agregación ). El número de agregaciones posibles está determinado por cada combinación posible de granularidades de dimensión.

La combinación de todas las agregaciones posibles y los datos base contiene las respuestas a cada consulta que se puede responder a partir de los datos. [11]

Debido a que normalmente hay muchas agregaciones que se pueden calcular, a menudo solo se calcula completamente un número predeterminado; el resto se resuelve a pedido. El problema de decidir qué agregaciones (vistas) calcular se conoce como el problema de selección de vista. La selección de vista puede estar restringida por el tamaño total del conjunto seleccionado de agregaciones, el tiempo para actualizarlas a partir de los cambios en los datos base o ambos. El objetivo de la selección de vista es típicamente minimizar el tiempo promedio para responder consultas OLAP, aunque algunos estudios también minimizan el tiempo de actualización. La selección de vista es NP-Completa . Se han explorado muchos enfoques para el problema, incluidos algoritmos voraces , búsqueda aleatoria, algoritmos genéticos y algoritmo de búsqueda A* .

Algunas funciones de agregación se pueden calcular para todo el cubo OLAP calculando previamente los valores de cada celda y luego calculando la agregación para una acumulación de celdas agregando estos agregados, aplicando un algoritmo de dividir y vencer al problema multidimensional para calcularlos de manera eficiente. [12] Por ejemplo, la suma total de una acumulación es simplemente la suma de las subsumas en cada celda. Las funciones que se pueden descomponer de esta manera se denominan funciones de agregación descomponibles e incluyen COUNT, MAX, MIN,y SUM, que se pueden calcular para cada celda y luego agregar directamente; estas se conocen como funciones de agregación autodescomponibles. [13]

En otros casos, la función de agregación se puede calcular calculando números auxiliares para celdas, agregando estos números auxiliares y, finalmente, calculando el número total al final; los ejemplos incluyen AVERAGE(seguimiento de suma y recuento, división al final) y RANGE(seguimiento de máximo y mínimo, resta al final). En otros casos, la función de agregación no se puede calcular sin analizar todo el conjunto a la vez, aunque en algunos casos se pueden calcular aproximaciones; los ejemplos incluyen DISTINCT COUNT, MEDIAN,y MODE; por ejemplo, la mediana de un conjunto no es la mediana de las medianas de los subconjuntos. Estos últimos son difíciles de implementar de manera eficiente en OLAP, ya que requieren calcular la función de agregación en los datos base, ya sea computándolos en línea (lento) o computándolos previamente para posibles implementaciones (espacio grande).

Tipos

Los sistemas OLAP se han categorizado tradicionalmente utilizando la siguiente taxonomía. [14]

OLAP multidimensional (MOLAP)

MOLAP (procesamiento analítico en línea multidimensional) es la forma clásica de OLAP y a veces se lo denomina simplemente OLAP. MOLAP almacena estos datos en un almacenamiento de matriz multidimensional optimizado, en lugar de en una base de datos relacional.

Algunas herramientas MOLAP requieren el cálculo previo y el almacenamiento de datos derivados, como las consolidaciones, la operación conocida como procesamiento. Dichas herramientas MOLAP generalmente utilizan un conjunto de datos precalculados denominado cubo de datos . El cubo de datos contiene todas las respuestas posibles a un rango determinado de preguntas. Como resultado, tienen una respuesta muy rápida a las consultas. Por otro lado, la actualización puede llevar mucho tiempo dependiendo del grado de cálculo previo. El cálculo previo también puede conducir a lo que se conoce como explosión de datos.

Otras herramientas MOLAP, particularmente aquellas que implementan el modelo de base de datos funcional, no calculan previamente los datos derivados, sino que realizan todos los cálculos a pedido, excepto aquellos que se solicitaron previamente y se almacenaron en un caché.

Ventajas de MOLAP

  • Rendimiento rápido de consultas gracias al almacenamiento optimizado, la indexación multidimensional y el almacenamiento en caché.
  • Tamaño de datos en disco más pequeño en comparación con los datos almacenados en una base de datos relacional debido a las técnicas de compresión.
  • Cálculo automatizado de agregados de nivel superior de los datos.
  • Es muy compacto para conjuntos de datos de baja dimensión.
  • Los modelos de matriz proporcionan una indexación natural.
  • Extracción eficaz de datos lograda mediante la preestructuración de datos agregados.

Desventajas de MOLAP

  • En algunos sistemas MOLAP, el paso de procesamiento (carga de datos) puede ser bastante largo, especialmente en el caso de grandes volúmenes de datos. Esto suele solucionarse realizando únicamente un procesamiento incremental, es decir, procesando únicamente los datos que han cambiado (normalmente, datos nuevos) en lugar de volver a procesar todo el conjunto de datos.
  • Algunas metodologías MOLAP introducen redundancia de datos.

Productos

Ejemplos de productos comerciales que utilizan MOLAP son Cognos Powerplay, Oracle Database OLAP Option , MicroStrategy , Microsoft Analysis Services , Essbase , TM1 , Jedox e icCube.

OLAP relacional (ROLAP)

ROLAP trabaja directamente con bases de datos relacionales y no requiere cálculos previos. Los datos base y las tablas de dimensiones se almacenan como tablas relacionales y se crean nuevas tablas para contener la información agregada. Depende de un diseño de esquema especializado. Esta metodología se basa en la manipulación de los datos almacenados en la base de datos relacional para dar la apariencia de la funcionalidad de segmentación y corte de OLAP tradicional. En esencia, cada acción de segmentación y corte equivale a agregar una cláusula "WHERE" en la declaración SQL. Las herramientas ROLAP no utilizan cubos de datos precalculados, sino que plantean la consulta a la base de datos relacional estándar y sus tablas para recuperar los datos necesarios para responder la pregunta. Las herramientas ROLAP tienen la capacidad de hacer cualquier pregunta porque la metodología no se limita al contenido de un cubo. ROLAP también tiene la capacidad de explorar hasta el nivel más bajo de detalle en la base de datos.

Si bien ROLAP utiliza una fuente de base de datos relacional, por lo general la base de datos debe diseñarse cuidadosamente para su uso. Una base de datos diseñada para OLTP no funcionará bien como base de datos ROLAP. Por lo tanto, ROLAP aún implica la creación de una copia adicional de los datos. Sin embargo, dado que es una base de datos, se pueden utilizar diversas tecnologías para completarla.

Ventajas de ROLAP

  • Se considera que ROLAP es más escalable en el manejo de grandes volúmenes de datos, especialmente modelos con dimensiones con cardinalidad muy alta (es decir, millones de miembros).
  • Con una variedad de herramientas de carga de datos disponibles y la capacidad de ajustar el código de extracción, transformación y carga (ETL) al modelo de datos particular, los tiempos de carga son generalmente mucho más cortos que con las cargas MOLAP automatizadas.
  • Los datos se almacenan en una base de datos relacional estándar y se puede acceder a ellos mediante cualquier herramienta de informes SQL (la herramienta no tiene que ser una herramienta OLAP).
  • Las herramientas ROLAP son mejores para manejar datos no agregables (por ejemplo, descripciones textuales). Las herramientas MOLAP tienden a tener un rendimiento lento al consultar estos elementos.
  • Al disociar el almacenamiento de datos del modelo multidimensional, es posible modelar con éxito datos que de otro modo no encajarían en un modelo dimensional estricto.
  • El enfoque ROLAP puede aprovechar los controles de autorización de bases de datos , como la seguridad a nivel de fila, mediante la cual los resultados de la consulta se filtran según criterios preestablecidos aplicados, por ejemplo, a un usuario o grupo de usuarios determinado ( cláusula WHERE de SQL ).

Desventajas de ROLAP

  • Existe un consenso en la industria de que las herramientas ROLAP tienen un rendimiento más lento que las herramientas MOLAP. Sin embargo, consulte la discusión a continuación sobre el rendimiento de ROLAP.
  • La carga de tablas agregadas debe gestionarse mediante código ETL personalizado . Las herramientas ROLAP no ayudan con esta tarea. Esto implica tiempo de desarrollo adicional y más código para respaldar.
  • Cuando se omite el paso de creación de tablas agregadas, el rendimiento de la consulta se ve afectado porque se deben consultar las tablas detalladas más grandes. Esto se puede solucionar en parte agregando tablas agregadas adicionales; sin embargo, sigue sin ser práctico crear tablas agregadas para todas las combinaciones de dimensiones/atributos.
  • ROLAP se basa en la base de datos de propósito general para realizar consultas y almacenar en caché, y por lo tanto, varias técnicas especiales empleadas por las herramientas MOLAP no están disponibles (como la indexación jerárquica especial). Sin embargo, las herramientas ROLAP modernas aprovechan las últimas mejoras en el lenguaje SQL , como los operadores CUBE y ROLLUP, DB2 Cube Views y otras extensiones OLAP de SQL. Estas mejoras de SQL pueden mitigar los beneficios de las herramientas MOLAP .
  • Dado que las herramientas ROLAP se basan en SQL para todos los cálculos, no son adecuadas cuando el modelo tiene muchos cálculos que no se traducen bien a SQL . Algunos ejemplos de estos modelos incluyen presupuestos, asignaciones, informes financieros y otros escenarios.

Rendimiento de ROLAP

En la industria OLAP, se suele considerar que ROLAP puede escalar grandes volúmenes de datos, pero que su rendimiento de consultas es más lento que MOLAP. La encuesta OLAP, la mayor encuesta independiente realizada entre todos los principales productos OLAP, que se ha llevado a cabo durante seis años (de 2001 a 2006), ha demostrado de forma constante que las empresas que utilizan ROLAP informan de un rendimiento más lento que las que utilizan MOLAP, incluso cuando se tienen en cuenta los volúmenes de datos.

Sin embargo, como ocurre con cualquier encuesta, hay una serie de cuestiones sutiles que deben tenerse en cuenta al interpretar los resultados.

  • La encuesta muestra que las herramientas ROLAP tienen 7 veces más usuarios que las herramientas MOLAP dentro de cada empresa. Los sistemas con más usuarios tenderán a sufrir más problemas de rendimiento en los momentos de mayor uso.
  • También existe la duda sobre la complejidad del modelo, medida tanto en número de dimensiones como en riqueza de cálculos. La encuesta no ofrece una buena manera de controlar estas variaciones en los datos analizados.

Desventajas de la flexibilidad

Algunas empresas eligen ROLAP porque tienen la intención de reutilizar las tablas de bases de datos relacionales existentes; estas tablas con frecuencia no están diseñadas de manera óptima para su uso en OLAP. La flexibilidad superior de las herramientas ROLAP permite que este diseño menos que óptimo funcione, pero el rendimiento se ve afectado. Las herramientas MOLAP, por el contrario, obligarían a volver a cargar los datos en un diseño OLAP óptimo.

OLAP híbrido (HOLAP)

La compensación indeseable entre el costo adicional de ETL y el lento rendimiento de las consultas ha garantizado que la mayoría de las herramientas OLAP comerciales ahora utilicen un enfoque "OLAP híbrido" (HOLAP), que permite al diseñador del modelo decidir qué parte de los datos se almacenará en MOLAP y qué parte en ROLAP.

No existe un acuerdo claro en toda la industria sobre qué constituye un "OLAP híbrido", excepto que una base de datos dividirá los datos entre almacenamiento relacional y especializado. [15] Por ejemplo, para algunos proveedores, una base de datos HOLAP utilizará tablas relacionales para almacenar las mayores cantidades de datos detallados y utilizará almacenamiento especializado para al menos algunos aspectos de las cantidades más pequeñas de datos más agregados o menos detallados. HOLAP aborda las deficiencias de MOLAP y ROLAP combinando las capacidades de ambos enfoques. Las herramientas HOLAP pueden utilizar tanto cubos precalculados como fuentes de datos relacionales.

Particiones verticales

En este modo, HOLAP almacena agregaciones en MOLAP para un rendimiento rápido de consultas y datos detallados en ROLAP para optimizar el tiempo de procesamiento del cubo .

Partición horizontal

En este modo, HOLAP almacena una parte de los datos, normalmente los más recientes (es decir, divididos por dimensión de tiempo) en MOLAP para un rendimiento de consulta rápido, y los datos más antiguos en ROLAP. Además, podemos almacenar algunos dados en MOLAP y otros en ROLAP, aprovechando el hecho de que en un cuboide grande habrá subregiones densas y dispersas. [16]

Productos

El primer producto que proporcionó almacenamiento HOLAP fue Holos , pero la tecnología también estuvo disponible en otros productos comerciales como Microsoft Analysis Services , Oracle Database OLAP Option , MicroStrategy y SAP AG BI Accelerator. El enfoque OLAP híbrido combina la tecnología ROLAP y MOLAP, beneficiándose de la mayor escalabilidad de ROLAP y el cálculo más rápido de MOLAP. Por ejemplo, un servidor HOLAP puede almacenar grandes volúmenes de datos detallados en una base de datos relacional, mientras que las agregaciones se mantienen en un almacén MOLAP separado. Los servicios OLAP de Microsoft SQL Server 7.0 admiten un servidor OLAP híbrido

Comparación

Cada tipo tiene ciertos beneficios, aunque existe desacuerdo sobre los detalles específicos de los beneficios entre los proveedores.

  • Algunas implementaciones de MOLAP son propensas a la explosión de la base de datos, un fenómeno que hace que las bases de datos MOLAP utilicen grandes cantidades de espacio de almacenamiento cuando se cumplen ciertas condiciones comunes: gran cantidad de dimensiones, resultados precalculados y datos multidimensionales dispersos.
  • MOLAP generalmente ofrece un mejor rendimiento debido a la indexación especializada y las optimizaciones de almacenamiento. MOLAP también necesita menos espacio de almacenamiento en comparación con ROLAP porque el almacenamiento especializado generalmente incluye técnicas de compresión . [15]
  • ROLAP es generalmente más escalable. [15] Sin embargo, el preprocesamiento de grandes volúmenes es difícil de implementar de manera eficiente, por lo que a menudo se omite. Por lo tanto, el rendimiento de las consultas ROLAP puede verse afectado enormemente.
  • Dado que ROLAP depende más de la base de datos para realizar cálculos, tiene más limitaciones en las funciones especializadas que puede utilizar.
  • HOLAP intenta combinar lo mejor de ROLAP y MOLAP. En general, puede realizar un preprocesamiento rápido, escalar bien y ofrecer un buen soporte de funciones.

Otros tipos

Las siguientes siglas también se utilizan a veces, aunque no están tan extendidas como las anteriores:

  • WOLAP – OLAP basado en la Web
  • DOLAP – OLAP de escritorio
  • RTOLAP – OLAP en tiempo real
  • GOLAP – Gráfico OLAP [17] [18]
  • CaseOLAP – OLAP semántico consciente del contexto, [19] desarrollado para aplicaciones biomédicas. [20] La plataforma CaseOLAP incluye preprocesamiento de datos (por ejemplo, descarga, extracción y análisis de documentos de texto), indexación y búsqueda con Elasticsearch, creación de una estructura de documento funcional llamada Text-Cube, [21] [22] [23] [24] [25] y cuantificación de relaciones frase-categoría definidas por el usuario utilizando el algoritmo central CaseOLAP.

API y lenguajes de consulta

A diferencia de las bases de datos relacionales , que tenían SQL como lenguaje de consulta estándar y API generalizadas como ODBC , JDBC y OLEDB , no hubo tal unificación en el mundo OLAP durante mucho tiempo. La primera API estándar real fue OLE DB para la especificación OLAP de Microsoft , que apareció en 1997 e introdujo el lenguaje de consulta MDX . Varios proveedores de OLAP, tanto servidores como clientes, lo adoptaron. En 2001, Microsoft e Hyperion anunciaron la especificación XML para análisis , que fue respaldada por la mayoría de los proveedores de OLAP. Dado que también usaba MDX como lenguaje de consulta, MDX se convirtió en el estándar de facto. [26] Desde septiembre de 2011, LINQ se puede utilizar para consultar cubos OLAP SSAS desde Microsoft .NET. [27]

Productos

Historia

El primer producto que realizó consultas OLAP fue Express, que se lanzó en 1970 (y Oracle lo adquirió en 1995 de Information Resources). [28] Sin embargo, el término no apareció hasta 1993, cuando fue acuñado por Edgar F. Codd , a quien se ha descrito como "el padre de la base de datos relacional". El artículo de Codd [1] fue el resultado de una breve tarea de consultoría que Codd realizó para la ex Arbor Software (más tarde Hyperion Solutions , y en 2007 adquirida por Oracle), como una especie de golpe de marketing.

La empresa había lanzado su propio producto OLAP, Essbase , un año antes. Como resultado, las "doce leyes del procesamiento analítico en línea" de Codd eran explícitas en su referencia a Essbase. Hubo cierta controversia posterior y cuando Computerworld se enteró de que Codd estaba pagado por Arbor, se retractó del artículo. El mercado OLAP experimentó un fuerte crecimiento a fines de la década de 1990 con docenas de productos comerciales que ingresaron al mercado. En 1998, Microsoft lanzó su primer servidor OLAP, Microsoft Analysis Services , que impulsó la adopción generalizada de la tecnología OLAP y la convirtió en algo común.

Comparación de productos

Clientes OLAP

Los clientes OLAP incluyen muchos programas de hojas de cálculo como Excel, aplicaciones web, SQL, herramientas de panel de control, etc. Muchos clientes admiten la exploración de datos interactiva, en la que los usuarios seleccionan dimensiones y medidas de interés. Algunas dimensiones se utilizan como filtros (para segmentar y dividir los datos), mientras que otras se seleccionan como ejes de una tabla dinámica o un gráfico dinámico. Los usuarios también pueden variar el nivel de agregación (para desglosar o agrupar) de la vista mostrada. Los clientes también pueden ofrecer una variedad de widgets gráficos, como controles deslizantes, mapas geográficos, mapas de calor y más, que se pueden agrupar y coordinar como paneles de control. En la columna de visualización de la tabla de comparación de servidores OLAP aparece una lista extensa de clientes .

Estructura del mercado

A continuación se muestra una lista de los principales proveedores de OLAP en 2006, con cifras en millones de dólares estadounidenses . [29]

ProveedorIngresos globalesEmpresa consolidada
Corporación Microsoft1.806Microsoft
Corporación de soluciones Hyperion1.077Oráculo
Cognos735IBM
Objetos de negocio416SAVIA
Microestrategia416Microestrategia
SAP AG330SAVIA
Cartesis ( SAP )210SAVIA
Aplicar205IBM
Información199Información
Corporación Oracle159Oráculo
Otros152Otros
Total5.700

Código abierto

  • Apache Pinot se utiliza en LinkedIn, Cisco, Uber, Slack, Stripe, DoorDash, Target, Walmart, Amazon y Microsoft para ofrecer análisis escalables en tiempo real con baja latencia. [30] Puede ingerir datos de fuentes de datos fuera de línea (como Hadoop y archivos planos), así como de fuentes en línea (como Kafka). Pinot está diseñado para escalar horizontalmente.
  • El servidor OLAP de Mondrian es un servidor OLAP de código abierto escrito en Java . Admite el lenguaje de consulta MDX , XML for Analysis y las especificaciones de interfaz olap4j.
  • Apache Doris es una base de datos analítica en tiempo real de código abierto basada en la arquitectura MPP. Puede soportar escenarios de consultas puntuales de alta concurrencia y análisis complejos de alto rendimiento. [31]
  • Apache Druid es un popular almacén de datos distribuido de código abierto para consultas OLAP que varias organizaciones utilizan a gran escala en producción.
  • Apache Kylin es un almacén de datos distribuido para consultas OLAP desarrollado originalmente por eBay.
  • Cubes (servidor OLAP) es otra implementación de kit de herramientas liviano y de código abierto de la funcionalidad OLAP en el lenguaje de programación Python con ROLAP incorporado.
  • ClickHouse es un DBMS orientado a columnas bastante nuevo que se centra en tiempos de respuesta y procesamiento rápidos.
  • DuckDB [32] es un sistema de gestión de bases de datos SQL OLAP [33] en proceso .
  • MonetDB es un RDBMS SQL orientado a columnas, de código abierto y maduro, diseñado para consultas OLAP.

Véase también

Referencias

Citas

  1. ^ ab Codd EF; Codd SB y Salley CT (1993). "Proporcionar OLAP (procesamiento analítico en línea) a los analistas de usuarios: un mandato de TI" (PDF) . Codd & Date, Inc. Recuperado el 5 de marzo de 2008 .[ enlace muerto permanente ]
  2. ^ "Libro blanco del Consejo OLAP" (PDF) . Consejo OLAP. 1997. Consultado el 18 de marzo de 2008 .
  3. ^ Deepak Pareek (2007). Inteligencia empresarial para telecomunicaciones. CRC Press. pp. 294 pp. ISBN 978-0-8493-8792-0. Recuperado el 18 de marzo de 2008 .
  4. ^ Apostolos Benisis (2010). Gestión de procesos de negocio: un cubo de datos para analizar datos de simulación de procesos de negocio para la toma de decisiones. VDM Verlag Dr. Müller eK pp. 204 pp. ISBN 978-3-639-22216-6.
  5. ^ Abdullah, Ahsan (noviembre de 2009). "Análisis de la incidencia de la cochinilla harinosa en el cultivo del algodón utilizando la herramienta ADSS-OLAP (procesamiento analítico en línea)". Computers and Electronics in Agriculture . 69 (1): 59–72. Bibcode :2009CEAgr..69...59A. doi :10.1016/j.compag.2009.07.003.
  6. ^ abcd O'Brien, JA, y Marakas, GM (2009). Sistemas de información gerencial (9.ª ed.). Boston, MA: McGraw-Hill/Irwin.
  7. ^ Hari Mailvaganam (2007). "Introducción a OLAP: ¡corte, corte y perfore!". Data Warehousing Review . Consultado el 18 de marzo de 2008 .
  8. ^ Williams, C., Garza, VR, Tucker, S, Marcus, AM (24 de enero de 1994). Los modelos multidimensionales aumentan las opciones de visualización. InfoWorld, 16(4)
  9. ^ MicroStrategy, Incorporated (1995). "The Case for Relational OLAP" (PDF) . Consultado el 20 de marzo de 2008 .
  10. ^ Surajit Chaudhuri y Umeshwar Dayal (1997). "Una descripción general del almacenamiento de datos y la tecnología OLAP". Rec . SIGMOD. 26 (1): 65. CiteSeerX 10.1.1.211.7178 . doi :10.1145/248603.248616. S2CID  8125630. 
  11. ^ Gray, Jim ; Chaudhuri, Surajit; Layman, Andrew; Reichart, Don; Venkatrao, Murali; Pellow, Frank; Pirahesh, Hamid (1997). "Cubo de datos: {A} Operador de agregación relacional que generaliza agrupación por, tablas cruzadas y subtotales". J. Minería de datos y descubrimiento de conocimiento . 1 (1): 29–53. arXiv : cs/0701155 . doi :10.1023/A:1009726021843. S2CID  12502175 . Consultado el 20 de marzo de 2008 .
  12. ^ Zhang 2017, pág. 1.
  13. ^ Jesús, Baquero y Almeida 2011, 2.1 Funciones descomponibles, págs.error sfn: sin destino: CITEREFJesusBaqueroAlmeida2011 ( ayuda )
  14. ^ Nigel Pendse (27 de junio de 2006). «Arquitecturas OLAP». Informe OLAP. Archivado desde el original el 24 de enero de 2008. Consultado el 17 de marzo de 2008 .
  15. ^ abc Bach Pedersen, Torben; S. Jensen, Christian (diciembre de 2001). "Tecnología de bases de datos multidimensionales". Sistemas distribuidos en línea . 34 (12): 40–46. doi :10.1109/2.970558. ISSN  0018-9162.
  16. ^ Kaser, Owen; Lemire, Daniel (2006). "Reordenamiento de valores de atributos para un OLAP híbrido eficiente". Ciencias de la información . 176 (16): 2304–2336. arXiv : cs/0702143 . doi :10.1016/j.ins.2005.09.005.
  17. ^ "Esta semana en análisis de gráficos y entidades". Datanami . 7 de diciembre de 2016 . Consultado el 8 de marzo de 2018 .
  18. ^ "Cambridge Semantics anuncia la compatibilidad de AnzoGraph con Amazon Neptune y bases de datos Graph". Tendencias y aplicaciones de bases de datos . 15 de febrero de 2018. Consultado el 8 de marzo de 2018 .
  19. ^ Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, lanza; Voss, Clara; Han, Jiawei (2016). "Resumen multidimensional basado en frases en cubos de texto" (PDF) .
  20. ^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN  1522-1539. PMC 6230912. PMID 29775406  . 
  21. ^ Lee, S.; Kim, N.; Kim, J. (2014). "Un análisis multidimensional y un cubo de datos para texto no estructurado y redes sociales". 2014 IEEE Fourth International Conference on Big Data and Cloud Computing . págs. 761–764. doi :10.1109/BDCloud.2014.117. ISBN 978-1-4799-6719-3. Número de identificación del sujeto  229585.
  22. ^ Ding, B.; Lin, XC; Han, J.; Zhai, C.; Srivastava, A.; Oza, NC (diciembre de 2011). "Búsqueda eficiente basada en palabras clave para celdas Top-K en cubo de texto". IEEE Transactions on Knowledge and Data Engineering . 23 (12): 1795–1810. doi :10.1109/TKDE.2011.34. S2CID  13960227.
  23. ^ Ding, B.; Zhao, B.; Lin, CX; Han, J.; Zhai, C. (2010). "TopCells: búsqueda basada en palabras clave de los mejores k documentos agregados en un cubo de texto". 2010 IEEE 26th International Conference on Data Engineering (ICDE 2010) . págs. 381–384. CiteSeerX 10.1.1.215.7504 . doi :10.1109/ICDE.2010.5447838. ISBN .  978-1-4244-5445-7.S2CID14649087  .
  24. ^ Lin, CX; Ding, B.; Han, K.; Zhu, F.; Zhao, B. (2008). "Cubo de texto: cálculo de medidas IR para análisis de bases de datos de texto multidimensionales". Octava conferencia internacional IEEE sobre minería de datos de 2008. págs. 905–910. doi :10.1109/icdm.2008.135. ISBN 978-0-7695-3502-9.S2CID 1522480  . {{cite book}}: |journal=ignorado ( ayuda )
  25. ^ Liu, X.; Tang, K.; Hancock, J.; Han, J.; Song, M.; Xu, R.; Pokorny, B. (21 de marzo de 2013). "Computación social, modelado y predicción conductual-cultural. SBP 2013. Apuntes de clase en informática". En Greenberg, AM; Kennedy, WG; Bos, ND (eds.). Un enfoque de cubo de texto para el comportamiento humano, social y cultural en el flujo de Twitter (7812. ed.). Berlín, Heidelberg: Springer. págs. 321–330. ISBN 978-3-642-37209-4.
  26. ^ Nigel Pendse (23 de agosto de 2007). "Comentario: guerras de API OLAP". Informe OLAP. Archivado desde el original el 28 de mayo de 2008. Consultado el 18 de marzo de 2008 .
  27. ^ "Proveedor de SSAS Entity Framework para LINQ a SSAS OLAP".
  28. ^ Nigel Pendse (23 de agosto de 2007). "Los orígenes de los productos OLAP actuales". Informe OLAP. Archivado desde el original el 21 de diciembre de 2007. Consultado el 27 de noviembre de 2007 .
  29. ^ Nigel Pendse (2006). "OLAP Market". Informe OLAP . Consultado el 17 de marzo de 2008 .
  30. ^ Yegulalp, Serdar (11 de junio de 2015). "LinkedIn llena otro nicho de SQL en Hadoop". InfoWorld . Consultado el 19 de noviembre de 2016 .
  31. ^ "Apache Doris". Github . Comunidad Apache Doris . Consultado el 5 de abril de 2023 .
  32. ^ "Un sistema de gestión de bases de datos SQL OLAP en proceso". DuckDB . Consultado el 10 de diciembre de 2022 .
  33. ^ Anand, Chillar (17 de noviembre de 2022). "Rastreo común en computadoras portátiles: extracción de un subconjunto de datos". Avil Page . Consultado el 10 de diciembre de 2022 .

Fuentes

  • Jesús, Paulo; Baquero, Carlos; Paulo Sergio Almeida (2011). "Una encuesta sobre algoritmos de agregación de datos distribuidos". arXiv : 1110.0725 [cs.DC].
  • Zhang, Chao (2017). Función agregada simétrica y asimétrica en computación masivamente paralela (informe técnico).

Lectura adicional

  • Daniel Lemire (diciembre de 2007). "Almacenamiento de datos y OLAP: una bibliografía orientada a la investigación".
  • Erik Thomsen. (1997). Soluciones OLAP: creación de sistemas de información multidimensionales, 2.ª edición . John Wiley & Sons. ISBN 978-0-471-14931-6.
Obtenido de "https://es.wikipedia.org/w/index.php?title=Procesamiento_analítico_en_línea&oldid=1250106977"