El criterio de información de Akaike ( AIC ) es un estimador del error de predicción y, por lo tanto, de la calidad relativa de los modelos estadísticos para un conjunto dado de datos. [1] [2] [3] Dada una colección de modelos para los datos, el AIC estima la calidad de cada modelo, en relación con cada uno de los otros modelos. Por lo tanto, el AIC proporciona un medio para la selección de modelos .
El AIC se basa en la teoría de la información . Cuando se utiliza un modelo estadístico para representar el proceso que generó los datos, la representación casi nunca será exacta; por lo tanto, se perderá cierta información al utilizar el modelo para representar el proceso. El AIC estima la cantidad relativa de información que pierde un modelo determinado: cuanto menos información pierde un modelo, mayor es su calidad.
Al estimar la cantidad de información que pierde un modelo, el AIC se ocupa del equilibrio entre la bondad de ajuste del modelo y su simplicidad. En otras palabras, el AIC se ocupa tanto del riesgo de sobreajuste como del riesgo de subajuste.
El criterio de información de Akaike recibe su nombre del estadístico japonés Hirotsugu Akaike , quien lo formuló. Actualmente constituye la base de un paradigma para los fundamentos de la estadística y también se utiliza ampliamente para la inferencia estadística .
Supongamos que tenemos un modelo estadístico de algunos datos. Sea k el número de parámetros estimados en el modelo. Sea el valor maximizado de la función de verosimilitud para el modelo. Entonces, el valor AIC del modelo es el siguiente. [4] [5]
Dado un conjunto de modelos candidatos para los datos, el modelo preferido es el que tiene el valor AIC mínimo. Por lo tanto, el AIC recompensa la bondad del ajuste (evaluada por la función de verosimilitud), pero también incluye una penalización que es una función creciente del número de parámetros estimados. La penalización desalienta el sobreajuste , lo cual es deseable porque aumentar el número de parámetros en el modelo casi siempre mejora la bondad del ajuste.
La AIC se basa en la teoría de la información . Supongamos que los datos son generados por algún proceso desconocido f . Consideramos dos modelos candidatos para representar f : g 1 y g 2. Si conociéramos f , entonces podríamos encontrar la información perdida al usar g 1 para representar f calculando la divergencia de Kullback-Leibler , D KL ( f ‖ g 1 ) ; de manera similar, la información perdida al usar g 2 para representar f podría encontrarse calculando D KL ( f ‖ g 2 ) . Entonces, generalmente, elegiríamos el modelo candidato que minimizara la pérdida de información.
No podemos elegir con certeza, porque no conocemos f . Akaike (1974) demostró, sin embargo, que podemos estimar, mediante AIC, cuánta más (o menos) información se pierde con g 1 que con g 2 . Sin embargo, la estimación solo es válida asintóticamente ; si el número de puntos de datos es pequeño, entonces a menudo es necesaria alguna corrección (ver AICc, a continuación).
Tenga en cuenta que el AIC no dice nada sobre la calidad absoluta de un modelo, solo la calidad relativa a otros modelos. Por lo tanto, si todos los modelos candidatos se ajustan mal, el AIC no dará ninguna advertencia al respecto. Por lo tanto, después de seleccionar un modelo mediante el AIC, suele ser una buena práctica validar la calidad absoluta del modelo. Dicha validación suele incluir comprobaciones de los residuos del modelo (para determinar si los residuos parecen aleatorios) y pruebas de las predicciones del modelo. Para obtener más información sobre este tema, consulte la validación de modelos estadísticos .
Para aplicar el AIC en la práctica, comenzamos con un conjunto de modelos candidatos y luego buscamos los valores AIC correspondientes a los modelos. Casi siempre habrá pérdida de información debido al uso de un modelo candidato para representar el "modelo verdadero", es decir, el proceso que generó los datos. Deseamos seleccionar, entre los modelos candidatos, el modelo que minimice la pérdida de información. No podemos elegir con certeza, pero podemos minimizar la pérdida de información estimada.
Supongamos que hay R modelos candidatos. Denotemos los valores AIC de esos modelos por AIC 1 , AIC 2 , AIC 3 , ..., AIC R . Sea AIC min el mínimo de esos valores. Entonces la cantidad exp((AIC min − AIC i )/2) puede interpretarse como proporcional a la probabilidad de que el i ésimo modelo minimice la pérdida de información (estimada). [6]
Como ejemplo, supongamos que hay tres modelos candidatos cuyos valores AIC son 100, 102 y 110. Entonces, el segundo modelo es exp((100 − 102)/2) = 0,368 veces más probable que el primer modelo para minimizar la pérdida de información. De manera similar, el tercer modelo es exp((100 − 110)/2) = 0,007 veces más probable que el primer modelo para minimizar la pérdida de información.
En este ejemplo, omitiríamos el tercer modelo de la consideración posterior. Entonces tenemos tres opciones: (1) recopilar más datos, con la esperanza de que esto permita distinguir claramente entre los dos primeros modelos; (2) simplemente concluir que los datos son insuficientes para respaldar la selección de un modelo entre los dos primeros; (3) tomar un promedio ponderado de los dos primeros modelos, con pesos proporcionales a 1 y 0,368, respectivamente, y luego realizar una inferencia estadística basada en el multimodelo ponderado . [7]
La cantidad exp((AIC min − AIC i )/2) se conoce como la verosimilitud relativa del modelo i . Está estrechamente relacionada con la razón de verosimilitud utilizada en la prueba de razón de verosimilitud . De hecho, si todos los modelos en el conjunto de candidatos tienen el mismo número de parámetros, entonces el uso de AIC podría parecer a primera vista muy similar al uso de la prueba de razón de verosimilitud. Sin embargo, existen distinciones importantes. En particular, la prueba de razón de verosimilitud es válida solo para modelos anidados , mientras que AIC (y AICc) no tiene tal restricción. [8] [9]
Toda prueba de hipótesis estadística puede formularse como una comparación de modelos estadísticos. Por lo tanto, toda prueba de hipótesis estadística puede replicarse mediante AIC. En las subsecciones siguientes se describen brevemente dos ejemplos. Sakamoto, Ishiguro y Kitagawa (1986, Parte II) y Konishi y Kitagawa (2008, cap. 4) ofrecen detalles de esos ejemplos y de muchos otros.
Como ejemplo de una prueba de hipótesis, considere la prueba t para comparar las medias de dos poblaciones con distribución normal . La entrada de la prueba t comprende una muestra aleatoria de cada una de las dos poblaciones.
Para formular la prueba como una comparación de modelos, construimos dos modelos diferentes. El primer modelo modela las dos poblaciones como si tuvieran medias y desviaciones típicas potencialmente diferentes. La función de verosimilitud para el primer modelo es, por lo tanto, el producto de las verosimilitudes de dos distribuciones normales distintas; por lo tanto, tiene cuatro parámetros: μ 1 , σ 1 , μ 2 , σ 2 . Para ser explícitos, la función de verosimilitud es la siguiente (indicando los tamaños de muestra por n 1 y n 2 ).
El segundo modelo modela las dos poblaciones como si tuvieran las mismas medias pero desviaciones estándar potencialmente diferentes. La función de verosimilitud del segundo modelo establece μ 1 = μ 2 en la ecuación anterior; por lo tanto, tiene tres parámetros.
A continuación, maximizamos las funciones de verosimilitud de los dos modelos (en la práctica, maximizamos las funciones de log-verosimilitud); después de eso, es fácil calcular los valores AIC de los modelos. A continuación, calculamos la verosimilitud relativa. Por ejemplo, si el segundo modelo fuera solo 0,01 veces más probable que el primero, omitiríamos el segundo modelo de la consideración posterior: por lo tanto, concluiríamos que las dos poblaciones tienen medias diferentes.
La prueba t presupone que las dos poblaciones tienen desviaciones estándar idénticas; la prueba tiende a ser poco fiable si la suposición es falsa y los tamaños de las dos muestras son muy diferentes ( la prueba t de Welch sería mejor). Comparar las medias de las poblaciones mediante el AIC, como en el ejemplo anterior, tiene la ventaja de no hacer tales suposiciones.
Para otro ejemplo de prueba de hipótesis, supongamos que tenemos dos poblaciones y que cada miembro de cada población está en una de dos categorías : categoría n.° 1 o categoría n.° 2. Cada población tiene una distribución binomial . Queremos saber si las distribuciones de las dos poblaciones son las mismas. Se nos da una muestra aleatoria de cada una de las dos poblaciones.
Sea m el tamaño de la muestra de la primera población. Sea m 1 el número de observaciones (en la muestra) en la categoría n.° 1; por lo tanto, el número de observaciones en la categoría n.° 2 es m − m 1 . De manera similar, sea n el tamaño de la muestra de la segunda población. Sea n 1 el número de observaciones (en la muestra) en la categoría n.° 1.
Sea p la probabilidad de que un miembro elegido al azar de la primera población esté en la categoría n.° 1. Por lo tanto, la probabilidad de que un miembro elegido al azar de la primera población esté en la categoría n.° 2 es 1 − p . Nótese que la distribución de la primera población tiene un parámetro. Sea q la probabilidad de que un miembro elegido al azar de la segunda población esté en la categoría n.° 1. Nótese que la distribución de la segunda población también tiene un parámetro.
Para comparar las distribuciones de las dos poblaciones, construimos dos modelos diferentes. El primer modelo modela las dos poblaciones como si tuvieran distribuciones potencialmente diferentes. La función de verosimilitud para el primer modelo es, por lo tanto, el producto de las verosimilitudes de dos distribuciones binomiales distintas; por lo tanto, tiene dos parámetros: p , q . Para ser explícitos, la función de verosimilitud es la siguiente.
El segundo modelo modela las dos poblaciones como si tuvieran la misma distribución. La función de verosimilitud del segundo modelo establece p = q en la ecuación anterior; por lo tanto, el segundo modelo tiene un parámetro.
A continuación, maximizamos las funciones de verosimilitud de los dos modelos (en la práctica, maximizamos las funciones de verosimilitud logarítmica); después de eso, es fácil calcular los valores AIC de los modelos. A continuación, calculamos la verosimilitud relativa. Por ejemplo, si el segundo modelo fuera solo 0,01 veces más probable que el primero, omitiríamos el segundo modelo de la consideración posterior: por lo tanto, concluiríamos que las dos poblaciones tienen distribuciones diferentes.
En general, se considera que la inferencia estadística comprende la prueba de hipótesis y la estimación . La prueba de hipótesis se puede realizar mediante AIC, como se explicó anteriormente. En cuanto a la estimación, existen dos tipos: estimación puntual y estimación de intervalo . La estimación puntual se puede realizar dentro del paradigma AIC: se proporciona mediante la estimación de máxima verosimilitud . La estimación de intervalo también se puede realizar dentro del paradigma AIC: se proporciona mediante intervalos de verosimilitud . Por lo tanto, la inferencia estadística generalmente se puede realizar dentro del paradigma AIC.
Los paradigmas más utilizados para la inferencia estadística son la inferencia frecuentista y la inferencia bayesiana . Sin embargo, la AIC se puede utilizar para realizar inferencia estadística sin depender ni del paradigma frecuentista ni del paradigma bayesiano, ya que la AIC se puede interpretar sin la ayuda de niveles de significación o valores previos bayesianos . [10] En otras palabras, la AIC se puede utilizar para formar una base de estadística que sea distinta tanto del frecuentismo como del bayesianismo. [11] [12]
Cuando el tamaño de la muestra es pequeño, existe una probabilidad sustancial de que AIC seleccione modelos que tengan demasiados parámetros, es decir, que AIC se sobreajuste. [13] [14] [15] Para abordar ese posible sobreajuste, se desarrolló AICc: AICc es AIC con una corrección para tamaños de muestra pequeños.
La fórmula para AICc depende del modelo estadístico. Suponiendo que el modelo es univariado , es lineal en sus parámetros y tiene residuos distribuidos normalmente (condicionados a los regresores), entonces la fórmula para AICc es la siguiente. [16] [17] [18] [19]
—donde n denota el tamaño de la muestra y k denota el número de parámetros. Por lo tanto, AICc es esencialmente AIC con un término de penalización adicional para el número de parámetros. Nótese que cuando n → ∞ , el término de penalización adicional converge a 0 y, por lo tanto, AICc converge a AIC. [20]
Si no se cumple el supuesto de que el modelo es univariado y lineal con residuos normales, la fórmula para AICc será generalmente diferente de la fórmula anterior. Para algunos modelos, la fórmula puede ser difícil de determinar. Sin embargo, para cada modelo que tenga AICc disponible, la fórmula para AICc está dada por AIC más términos que incluyen tanto k como k 2 . En comparación, la fórmula para AIC incluye k pero no k 2 . En otras palabras, AIC es una estimación de primer orden (de la pérdida de información), mientras que AICc es una estimación de segundo orden . [21]
Burnham y Anderson (2002, cap. 7) y Konishi y Kitagawa (2008, cap. 7-8) ofrecen un análisis más detallado de la fórmula, con ejemplos de otros supuestos. En particular, con otros supuestos, la estimación bootstrap de la fórmula suele ser factible.
En resumen, AICc tiene la ventaja de tender a ser más preciso que AIC (especialmente para muestras pequeñas), pero AICc también tiene la desventaja de que a veces es mucho más difícil de calcular que AIC. Nótese que si todos los modelos candidatos tienen la misma k y la misma fórmula para AICc, entonces AICc y AIC darán valoraciones idénticas (relativas); por lo tanto, no habrá ninguna desventaja en usar AIC, en lugar de AICc. Además, si n es muchas veces mayor que k 2 , entonces el término de penalización adicional será insignificante; por lo tanto, la desventaja en usar AIC, en lugar de AICc, será insignificante.
El criterio de información de Akaike fue formulado por el estadístico Hirotsugu Akaike . Originalmente se lo denominó "criterio de información". [22] Akaike lo anunció por primera vez en inglés en un simposio de 1971; las actas del simposio se publicaron en 1973. [22] [23] Sin embargo, la publicación de 1973 fue solo una presentación informal de los conceptos. [24] La primera publicación formal fue un artículo de Akaike de 1974. [5]
La derivación inicial del AIC se basó en algunas suposiciones sólidas. Takeuchi (1976) demostró que las suposiciones podían debilitarse mucho más. Sin embargo, el trabajo de Takeuchi estaba en japonés y no fue ampliamente conocido fuera de Japón durante muchos años. (Traducido en [25] )
Sugiura (1978) propuso originalmente el AIC para la regresión lineal (solamente). Esto dio origen al trabajo de Hurvich y Tsai (1989) y a varios artículos posteriores de los mismos autores, que ampliaron las situaciones en las que se podía aplicar el AICc.
La primera exposición general del enfoque de la teoría de la información fue el volumen de Burnham y Anderson (2002), que incluye una presentación en inglés del trabajo de Takeuchi. El volumen condujo a un uso mucho mayor del AIC y ahora cuenta con más de 64.000 citas en Google Scholar .
Akaike denominó su enfoque "principio de maximización de la entropía", porque el enfoque se basa en el concepto de entropía de la teoría de la información . De hecho, minimizar el AIC en un modelo estadístico es efectivamente equivalente a maximizar la entropía en un sistema termodinámico; en otras palabras, el enfoque de la teoría de la información en estadística consiste esencialmente en aplicar la Segunda Ley de la Termodinámica . Como tal, el AIC tiene sus raíces en el trabajo de Ludwig Boltzmann sobre la entropía . Para más información sobre estos temas, véase Akaike (1985) y Burnham & Anderson (2002, cap. 2).
Un modelo estadístico debe tener en cuenta los errores aleatorios . Un modelo de línea recta podría describirse formalmente como y i = b 0 + b 1 x i + ε i . Aquí, los ε i son los residuos del ajuste de la línea recta. Si se supone que los ε i son gaussianos iid (con media cero), entonces el modelo tiene tres parámetros: b 0 , b 1 y la varianza de las distribuciones gaussianas. Por lo tanto, al calcular el valor AIC de este modelo, deberíamos usar k = 3. De manera más general, para cualquier modelo de mínimos cuadrados con residuos gaussianos iid, la varianza de las distribuciones de los residuos debería contarse como uno de los parámetros. [26]
Como otro ejemplo, considere un modelo autorregresivo de primer orden , definido por x i = c + φx i −1 + ε i , donde ε i es gaussiano iid (con media cero). Para este modelo, hay tres parámetros: c , φ y la varianza de ε i . De manera más general, un modelo autorregresivo de orden p tiene p + 2 parámetros. (Sin embargo, si c no se estima a partir de los datos, sino que se proporciona de antemano, entonces solo hay p + 1 parámetros).
Los valores AIC de los modelos candidatos deben calcularse todos con el mismo conjunto de datos. Sin embargo, a veces podríamos querer comparar un modelo de la variable de respuesta , y , con un modelo del logaritmo de la variable de respuesta, log( y ) . De manera más general, podríamos querer comparar un modelo de los datos con un modelo de datos transformados . A continuación se muestra una ilustración de cómo manejar las transformaciones de datos (adaptada de Burnham & Anderson (2002, §2.11.3): "Los investigadores deben asegurarse de que todas las hipótesis se modelen utilizando la misma variable de respuesta").
Supongamos que queremos comparar dos modelos: uno con una distribución normal de y y otro con una distribución normal de log( y ) . No deberíamos comparar directamente los valores AIC de los dos modelos. En su lugar, deberíamos transformar la función de distribución acumulativa normal para tomar primero el logaritmo de y . Para ello, necesitamos realizar la integración relevante por sustitución : por lo tanto, necesitamos multiplicar por la derivada de la función logaritmo (natural) , que es 1/ y . Por lo tanto, la distribución transformada tiene la siguiente función de densidad de probabilidad :
—que es la función de densidad de probabilidad para la distribución log-normal . Luego comparamos el valor AIC del modelo normal con el valor AIC del modelo log-normal.
En el caso de modelos mal especificados, el criterio de información de Takeuchi (TIC) podría ser más adecuado. Sin embargo, el TIC suele sufrir inestabilidad causada por errores de estimación. [27]
La diferencia crítica entre AIC y BIC (y sus variantes) es la propiedad asintótica bajo clases de modelos bien especificadas y mal especificadas. [28] Sus diferencias fundamentales han sido bien estudiadas en problemas de selección de variables de regresión y selección de orden de autorregresión [29] . En general, si el objetivo es la predicción, se prefieren AIC y validaciones cruzadas de dejar uno fuera. Si el objetivo es la selección, la inferencia o la interpretación, se prefieren BIC o validaciones cruzadas de dejar muchos fuera. Ding et al. (2018) ofrecen una descripción general completa de AIC y otros métodos populares de selección de modelos [30] .
La fórmula del criterio de información bayesiano (BIC) es similar a la fórmula del AIC, pero con una penalización diferente para el número de parámetros. Con AIC la penalización es 2 k , mientras que con BIC la penalización es ln( n ) k .
Burnham y Anderson (2002, §6.3-6.4) ofrecen una comparación de AIC/AICc y BIC, con comentarios complementarios de Burnham y Anderson (2004). Los autores muestran que AIC/AICc se puede derivar en el mismo marco bayesiano que BIC, simplemente utilizando diferentes probabilidades previas . Sin embargo, en la derivación bayesiana de BIC, cada modelo candidato tiene una probabilidad previa de 1/ R (donde R es el número de modelos candidatos). Además, los autores presentan algunos estudios de simulación que sugieren que AICc tiende a tener ventajas prácticas y de rendimiento sobre BIC.
Un punto señalado por varios investigadores es que AIC y BIC son apropiados para diferentes tareas. En particular, se sostiene que BIC es apropiado para seleccionar el "modelo verdadero" (es decir, el proceso que generó los datos) del conjunto de modelos candidatos, mientras que AIC no es apropiado. Para ser más específicos, si el "modelo verdadero" está en el conjunto de candidatos, entonces BIC seleccionará el "modelo verdadero" con probabilidad 1, ya que n → ∞ ; en contraste, cuando la selección se realiza mediante AIC, la probabilidad puede ser menor que 1. [31] [32] [33] Los defensores de AIC argumentan que este problema es insignificante, porque el "modelo verdadero" prácticamente nunca está en el conjunto de candidatos. De hecho, es un aforismo común en estadística que " todos los modelos son incorrectos "; por lo tanto, el "modelo verdadero" (es decir, la realidad) no puede estar en el conjunto de candidatos.
Vrieze (2012) ofrece otra comparación entre AIC y BIC. Vrieze presenta un estudio de simulación que permite que el "modelo verdadero" se encuentre en el conjunto de candidatos (a diferencia de lo que ocurre con prácticamente todos los datos reales). El estudio de simulación demuestra, en particular, que AIC a veces selecciona un modelo mucho mejor que BIC incluso cuando el "modelo verdadero" se encuentra en el conjunto de candidatos. La razón es que, para un número finito de n , BIC puede tener un riesgo sustancial de seleccionar un modelo muy malo del conjunto de candidatos. Esta razón puede surgir incluso cuando n es mucho mayor que k 2 . Con AIC, se minimiza el riesgo de seleccionar un modelo muy malo.
Si el "modelo verdadero" no está en el conjunto de candidatos, lo máximo que podemos esperar hacer es seleccionar el modelo que mejor se aproxime al "modelo verdadero". El AIC es apropiado para encontrar el mejor modelo de aproximación, bajo ciertas suposiciones. [31] [32] [33] (Estas suposiciones incluyen, en particular, que la aproximación se realiza con respecto a la pérdida de información).
Yang (2005) compara el AIC y el BIC en el contexto de la regresión . En la regresión, el AIC es asintóticamente óptimo para seleccionar el modelo con el menor error cuadrático medio , bajo el supuesto de que el "modelo verdadero" no está en el conjunto de candidatos. El BIC no es asintóticamente óptimo bajo el supuesto. Yang muestra además que la tasa a la que el AIC converge al óptimo es, en cierto sentido, la mejor posible.
A veces, cada modelo candidato supone que los residuos se distribuyen según distribuciones normales independientes e idénticas (con media cero). Esto da lugar al ajuste del modelo por mínimos cuadrados .
Con el ajuste de mínimos cuadrados, la estimación de máxima verosimilitud para la varianza de las distribuciones de residuos de un modelo es
donde la suma residual de cuadrados es
Entonces, el valor máximo de la función de log-verosimilitud de un modelo es (ver Distribución normal#Log-verosimilitud ):
donde C es una constante independiente del modelo y que depende únicamente de los puntos de datos particulares, es decir, no cambia si los datos no cambian.
Esto da: [34]
Dado que solo las diferencias en AIC son significativas, se puede ignorar la constante C , lo que nos permite tomar convenientemente lo siguiente para comparaciones de modelos:
Tenga en cuenta que si todos los modelos tienen el mismo k , entonces seleccionar el modelo con AIC mínimo es equivalente a seleccionar el modelo con RSS mínimo , que es el objetivo habitual de la selección de modelos basada en mínimos cuadrados.
La validación cruzada con exclusión de uno es asintóticamente equivalente a AIC para los modelos de regresión lineal ordinarios. [35] La equivalencia asintótica a AIC también se aplica a los modelos de efectos mixtos . [36]
El C p de Mallows es equivalente a AIC en el caso de la regresión lineal (gaussiana) . [37]
proporciona una estimación sorprendentemente simple de la desviación promedio fuera de la muestra.
El AIC es una estimación de la desviación fuera de rango.