Info-métricas

Enfoque interdisciplinario del modelado científico y el procesamiento de la información

La infometría es un enfoque interdisciplinario del modelado científico , la inferencia y el procesamiento eficiente de la información . Es la ciencia del modelado, el razonamiento y la extracción de inferencias en condiciones de información ruidosa y limitada. Desde el punto de vista de las ciencias, este marco se encuentra en la intersección de la teoría de la información , los métodos estadísticos de inferencia, las matemáticas aplicadas , la informática , la econometría , la teoría de la complejidad , el análisis de decisiones , el modelado y la filosofía de la ciencia .

La infometría proporciona un marco de optimización restringido para abordar problemas mal determinados o mal planteados, es decir, problemas en los que no hay suficiente información para encontrar una solución única. Estos problemas son muy comunes en todas las ciencias: la información disponible es incompleta , limitada, ruidosa e incierta . La infometría es útil para la modelización , el procesamiento de la información, la construcción de teorías y los problemas de inferencia en todo el espectro científico. El marco de la infometría también se puede utilizar para probar hipótesis sobre teorías en competencia o mecanismos causales .

Historia

La infometría evolucionó a partir del formalismo clásico de máxima entropía , que se basa en el trabajo de Shannon . Las primeras contribuciones se dieron principalmente en las ciencias naturales y matemáticas/estadísticas. Desde mediados de los años 1980 y especialmente a mediados de los años 1990, el enfoque de máxima entropía se generalizó y amplió para abordar una clase más amplia de problemas en las ciencias sociales y del comportamiento, especialmente para problemas y datos complejos. La palabra "infometría" fue acuñada en 2009 por Amos Golan, justo antes de que se inaugurara el Instituto de Infometría interdisciplinario.

Definiciones preliminares

Considere una variable aleatoria que puede dar como resultado uno de K resultados distintos. La probabilidad de cada resultado es para . Por lo tanto, es una distribución de probabilidad K -dimensional definida para tal que y . Defina el contenido informativo de un único resultado como (p. ej., Shannon). Observar un resultado en las colas de la distribución (un evento raro) proporciona mucha más información que observar otro resultado más probable. La entropía ^[1] es el contenido de información esperado de un resultado de la variable aleatoria X cuya distribución de probabilidad es P : ${\textstyle X}$ ${\textstyle p_{k}}$ ${\textstyle x_{k}}$ ${\textstyle p_{k}=p(x_{k})}$ ${\textstyle k=1,2,\ldots ,K}$ ${\textstyle P}$ ${\textstyle X}$ $p_{k}\epsilon [0,1]$ ${\textstyle \sum _{k}p_{k}=1}$ ${\textstyle x_{k}}$ ${\textstyle h(x_{k})=h(p_{k})=\log _{2}(1/p_{k})}$ $H(P)=\sum _{k=1}^{K}p_{k}\log _{2}\left({\frac {1}{p_{k}}}\right)=-\sum _{k=1}^{K}p_{k}\log _{2}(p_{k})=\operatorname {E} \left[\log _{2}\left({\frac {1}{P(X)}}\right)\right]$

Aquí si , y es el operador de expectativa . $p_{k}\log _{2}(p_{k})\equiv 0$ $p_{k}=0$ $\operatorname {E}$

El problema básico de la infométrica

Consideremos el problema de modelar e inferir la distribución de probabilidad no observada de alguna variable aleatoria discreta de dimensión K dada sólo la media (valor esperado) de esa variable. También sabemos que las probabilidades son no negativas y normalizadas (es decir, suman exactamente 1). Para todo K > 2 el problema está subdeterminado. Dentro del marco de la info-métrica, la solución es maximizar la entropía de la variable aleatoria sujeta a las dos restricciones: media y normalización. Esto produce la solución de máxima entropía habitual. Las soluciones a ese problema pueden extenderse y generalizarse de varias maneras. Primero, uno puede usar otra entropía en lugar de la entropía de Shannon. Segundo, el mismo enfoque puede usarse para variables aleatorias continuas, para todos los tipos de modelos condicionales (por ejemplo, regresión, desigualdad y modelos no lineales), y para muchas restricciones. Tercero, se pueden incorporar valores previos dentro de ese marco. Cuarto, el mismo marco puede extenderse para dar cabida a una mayor incertidumbre: incertidumbre sobre los valores observados y/o incertidumbre sobre el modelo mismo. Por último, el mismo marco básico se puede utilizar para desarrollar nuevos modelos/teorías, validar estos modelos utilizando toda la información disponible y probar hipótesis estadísticas sobre el modelo.

Ejemplos

Dados de seis caras

Inferencia basada en información resultante de experimentos independientes repetidos.

El siguiente ejemplo se atribuye a Boltzmann y fue popularizado por Jaynes . Considere un dado de seis caras , donde el lanzamiento del dado es el evento y los resultados distintos son los números del 1 al 6 en la cara superior del dado . El experimento son las repeticiones independientes de lanzar el mismo dado . Suponga que solo observa el valor medio empírico, y, de N lanzamientos de un dado de seis caras . Dada esa información, desea inferir las probabilidades de que un valor específico de la cara aparezca en el próximo lanzamiento del dado . También sabe que la suma de las probabilidades debe ser 1. Maximizar la entropía (y usar el logaritmo en base 2) sujeto a estas dos restricciones (media y normalización) produce la solución más desinformada. ${\begin{aligned}&{\underset {\{P\}}{\text{maximize}}}&&H(\mathbf {p} )=-\sum _{k=1}^{6}p_{k}\log _{2}(p_{k})\\&{\text{subject to}}&&\sum _{k}p_{k}x_{k}=y{\text{ and }}\sum _{k}p_{k}=1\end{aligned}}$

para y . La solución es ${\textstyle x_{k}=k}$ ${\textstyle k=1,2,\ldots ,6}$

{\widehat {p}}_{k}={\frac {2^{-{\widehat {\lambda }}x_{k}}}{\sum _{k=1}^{6}2^{-{\widehat {\lambda }}x_{k}}}}\equiv {\frac {2^{-\lambda x_{k}}}{\Omega }}

donde es la probabilidad inferida del evento , son los multiplicadores de Lagrange inferidos asociados con la restricción de media y es la función de partición (normalización). Si es un dado justo con una media de 3,5, se esperaría que todas las caras sean igualmente probables y que las probabilidades sean iguales. Esto es lo que da la solución de máxima entropía. Si el dado no es justo (o está cargado) con una media de 4, la solución de máxima entropía resultante será . A modo de comparación, minimizar el criterio de mínimos cuadrados en lugar de maximizar la entropía da como resultado . ${\textstyle {\widehat {p}}_{k}}$ ${\textstyle k}$ ${\textstyle {\widehat {\lambda }}}$ ${\textstyle \Omega }$ ${\textstyle p_{k}=(0.103,0.123,0.146,0.174,0.207,0.247)}$ ${\textstyle \left(\sum _{k=1}^{6}p_{k}^{2}\right)}$ ${\textstyle p_{k}(LS)=(0.095,0.124,0.152,0.181,0.210,0.238)}$

Algunos ejemplos interdisciplinarios

Predicción de precipitaciones : utilizando la precipitación diaria esperada (media aritmética), el marco de máxima entropía se puede utilizar para inferir y pronosticar la distribución diaria de precipitaciones. ^[2]

Gestión de carteras : supongamos que hay un gestor de carteras que necesita asignar algunos activos o ponderaciones de cartera a diferentes activos, teniendo en cuenta las restricciones y preferencias del inversor. Utilizando estas preferencias y restricciones, así como la información observada, como el rendimiento medio del mercado y las covarianzas de cada activo durante un período de tiempo, se puede utilizar el marco de maximización de la entropía para encontrar las ponderaciones óptimas de la cartera. En este caso, la entropía de la cartera representa su diversidad. Este marco se puede modificar para incluir otras restricciones, como la varianza mínima, la diversidad máxima, etc. Ese modelo implica desigualdades y se puede generalizar aún más para incluir las ventas en corto. Se pueden encontrar más ejemplos de este tipo y el código relacionado en ^[3]^[4]

Se puede encontrar una lista extensa de trabajos relacionados con la infométrica aquí: http://info-metrics.org/bibliography.html

Véase también

Referencias

^ Shannon, Claude (1948). "Una teoría matemática de la comunicación". Bell System Technical Journal . 27 : 379–423.
^ Golan, Amos (2018). Fundamentos de la infometría: modelado, inferencia e información imperfecta . Oxford University Press.
^ Bera, Anil K.; Park, Sung Y. (2008). "Diversificación óptima de carteras utilizando el principio de máxima entropía". Econometric Reviews . 27 (4–6): 484–512.
^ "Asignación de cartera: fundamentos de la infométrica". info-metrics.org .

Lectura adicional

Clásicos

Rudolf Clausius . "Xi. sobre la naturaleza del movimiento que llamamos calor". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science , 14 (91):108–127, 1857.
Ludwig Boltzmann. "Más estudios sobre el equilibrio térmico de las moléculas de gas (weitere studien über das wärmegleichgewicht unter gasmolekülen)". Sitzungsberichte der Akademie der Wissenschaften, Mathematische-Naturwissenschaftliche Klasse , páginas 275–370, 1872.
J. W. Gibbs . Principios elementales de mecánica estadística . (New Haven, CT: Yale University Press), 1902.
CE Shannon . "Una teoría matemática de la comunicación". Bell System Technical Journal , 27 :379–423, 1948.
Y. Alhassid y RD Levine. "Incertidumbres experimentales e inherentes en el enfoque teórico de la información". Chemical Physics Letters , 73 (1):16–20, 1980.
RB Ash. Teoría de la información . Interscience, Nueva York, 1965.
A Caticha. Entropía relativa e inferencia inductiva . 2004.
A Caticha. "Conferencias sobre probabilidad, entropía y física estadística". MaxEnt, Sao Paulo, Brasil , 2008.
Jan M. Van Campenhout Cover y Thomas M. "Entropía máxima y probabilidad condicional". IEEE Transactions on Information Theory , IT-27, n.º 4, 1981.
I. Csiszar. "¿Por qué mínimos cuadrados y máxima entropía? Un enfoque aximomático para la inferencia en problemas lineales inversos". Anales de Estadística , 19 :2032–2066, 1991.
David Donoho, Hossein Kakavand y James Mammen. "La solución más simple para un sistema indeterminado de ecuaciones lineales". En Teoría de la información, Simposio internacional IEEE de 2006 sobre , páginas 1924–1928. IEEE, 2007.

Libros básicos y monografías de investigación

Golan, Amos. Fundamentos de la infometría: modelado, inferencia e información imperfecta . Oxford University Press, 2018.
Golan. "Econometría de la información y la entropía: una revisión y síntesis". Fundamentos y tendencias en econometría , 2(1-2):1–145, 2008.
RD Levine y M. Tribus. El formalismo de máxima entropía . MIT Press, Cambridge, MA, 1979.
JN Kapur. Modelos de máxima entropía en ciencia e ingeniería . Wiley, 1993.
J. Harte. Máxima entropía y ecología: una teoría de la abundancia, la distribución y la energía . Oxford U Press, 2011.
A. Golan, G. Judge y D. Miller. Econometría de máxima entropía: estimación robusta con datos limitados . John Wiley&Sons, 1996.
ET Jaynes . Teoría de la probabilidad: la lógica de la ciencia . Cambridge University Press, 2003.

Otras aplicaciones representativas

JR Banavar, A. Maritan y I. Volkov. "Aplicaciones del principio de máxima entropía: de la física a la ecología". Journal of Physics-Condensed Matter , 22(6), 2010.
Anil K. Bera y Sung Y. Park. "Diversificación óptima de carteras utilizando el principio de máxima entropía". Econometric Reviews , 27(4-6):484–512, 2008.
Bhati, B. Buyuksahin y A. Golan. "Reconstrucción de imágenes: un enfoque teórico de la información". Actas de la Asociación Estadounidense de Estadística , 2005.
Peter W Buchen y Michael Kelly. "La distribución de entropía máxima de un activo inferida a partir de los precios de las opciones". Journal of Financial and Quantitative Analysis , 31(01):143–159, 1996.
Randall C Campbell y R Carter Hill. "Predicción de opciones multinomiales utilizando máxima entropía". Economics Letters , 64(3):263–269, 1999.
Ariel Caticha y Amos Golan. "Un marco entrópico para modelar economías". Physica A: Mecánica estadística y sus aplicaciones , 408:149–163, 2014.
Marsha Courchane, Amos Golan y David Nickerson. "Estimación y evaluación de la discriminación crediticia: un enfoque informativo". Journal of Housing Research , 11(1):67–90, 2000.
Tsukasa Fujiwara y Yoshio Miyahara. "Las medidas de martingala de entropía mínima para procesos geométricos de Lévy". Finance and Stochastics , 7(4):509–531, 2003.

Marco Frittelli. "La medida martingala de entropía mínima y el problema de valoración en mercados incompletos". Finanzas matemáticas , 10(1):39–52, 2000.

D. Glennon y A. Golan. "Un modelo de Markov de quiebra bancaria estimado utilizando un enfoque teórico de la información". Informe, Departamento del Tesoro de Estados Unidos, 2003.
A. Golan. "Una teoría estocástica multivariable de la distribución del tamaño de las empresas con evidencia empírica". Advances in Econometrics , 10:1–46, 1994.
A. Golan. "Modelo Modcomp de efectos de la compensación en la retención de personal: un enfoque teórico de la información". Informe, Marina de los Estados Unidos, febrero de 2003.

Amos Golan y Volker Dose. "Un enfoque teórico de información generalizada para la reconstrucción tomográfica". Journal of Physics A: Mathematical and General , 34(7):1271, 2001.

Bart Haegeman y Rampal S Etienne. "Maximización de la entropía y la distribución espacial de las especies". The American Naturalist , 175(4):E74–E90, 2010.
UV Toussaint, A. Golan y V. Dose y, “Descomposición de entropía máxima de espectros de masas cuádruples”. Journal of Vacuum Science and Technology A 22(2), marzo/abril de 2004, 401–406
Golan A. y D. Volker, “Un enfoque teórico de información generalizada para la reconstrucción tomográfica”, J. of Physics A: Mathematical and General (2001) 1271–1283.

Enlaces externos

"Info-Metrics Institute: Análisis y exposición de datos teóricos de la información | American University, Washington, DC" american.edu . Consultado el 7 de noviembre de 2017 .
"Centro para la Ciencia de la Información NSF STC". soihub.org . Consultado el 7 de noviembre de 2017 .
http://info-metrics.org/

[1] Shannon, Claude (1948). "Una teoría matemática de la comunicación". Bell System Technical Journal . 27 : 379–423.

[2] Golan, Amos (2018). Fundamentos de la infometría: modelado, inferencia e información imperfecta . Oxford University Press.

[3] Bera, Anil K.; Park, Sung Y. (2008). "Diversificación óptima de carteras utilizando el principio de máxima entropía". Econometric Reviews . 27 (4–6): 484–512.

[4] "Asignación de cartera: fundamentos de la infométrica". info-metrics.org .