Criterio de información de desviación

El criterio de información de desviación ( DIC ) es una generalización de modelado jerárquico del criterio de información de Akaike (AIC). Es particularmente útil en problemas de selección de modelos bayesianos donde las distribuciones posteriores de los modelos se han obtenido mediante simulación de Monte Carlo de cadena de Markov (MCMC). El DIC es una aproximación asintótica a medida que el tamaño de la muestra se vuelve grande, como el AIC. Solo es válido cuando la distribución posterior es aproximadamente normal multivariante .

Definición

Defina la desviación como , donde son los datos, son los parámetros desconocidos del modelo y es la función de verosimilitud . es una constante que se cancela en todos los cálculos que comparan diferentes modelos y que, por lo tanto, no es necesario conocer. D ( θ ) = 2 registro ( pag ( y | θ ) ) + do {\displaystyle D(\theta )=-2\log(p(y|\theta ))+C\,} y {\estilo de visualización y} θ {\estilo de visualización \theta} pag ( y | θ ) {\displaystyle p(y|\theta )} do {\estilo de visualización C}

Existen dos cálculos de uso común para el número efectivo de parámetros del modelo. El primero, como se describe en Spiegelhalter et al. (2002, p. 587), es , donde es la expectativa de . El segundo, como se describe en Gelman et al. (2004, p. 182), es . Cuanto mayor sea el número efectivo de parámetros, más fácil será para el modelo ajustarse a los datos, por lo que la desviación debe penalizarse. pag D = D ( θ ) ¯ D ( θ ¯ ) {\displaystyle p_{D}={\overline {D(\theta )}}-D({\bar {\theta }})} θ ¯ {\displaystyle {\bar {\theta}}} θ {\estilo de visualización \theta} pag D = pag V = 1 2 variedad ( D ( θ ) ) ¯ {\displaystyle p_{D}=p_{V}={\frac {1}{2}}{\overline {\operatorname {var} \left(D(\theta )\right)}}}

El criterio de información de desviación se calcula como

D I do = pag D + D ( θ ) ¯ , {\displaystyle \mathrm {DIC} = p_{D}+{\overline {D(\theta )}},}

o equivalentemente como

D I do = D ( θ ¯ ) + 2 pag D . {\displaystyle \mathrm {DIC} =D({\bar {\theta }})+2p_{D}.}

A partir de esta última forma, la conexión con AIC es más evidente.

Motivación

La idea es que los modelos con un DIC más pequeño deberían preferirse a los modelos con un DIC más grande. Los modelos se penalizan tanto por el valor de , que favorece un buen ajuste, pero también (de manera similar a AIC) por el número efectivo de parámetros . Dado que disminuirá a medida que aumenta el número de parámetros en un modelo, el término compensa este efecto al favorecer a los modelos con un número menor de parámetros. D ¯ {\estilo de visualización {\bar {D}}} pag D estilo de visualización p_{D}} D ¯ {\estilo de visualización {\bar {D}}} pag D estilo de visualización p_{D}}

Una ventaja del DIC sobre otros criterios en el caso de la selección de modelos bayesianos es que el DIC se calcula fácilmente a partir de las muestras generadas por una simulación de Monte Carlo de cadena de Markov. El AIC requiere calcular la probabilidad en su máximo sobre , que no está fácilmente disponible a partir de la simulación MCMC. Pero para calcular el DIC, simplemente calcule como el promedio de sobre las muestras de , y como el valor de evaluado en el promedio de las muestras de . Entonces el DIC se desprende directamente de estas aproximaciones. Claeskens y Hjort (2008, Cap. 3.5) muestran que el DIC es equivalente a una muestra grande de la versión robusta del modelo natural del AIC. θ {\estilo de visualización \theta} D ¯ {\estilo de visualización {\bar {D}}} D ( θ ) {\displaystyle D(\theta )} θ {\estilo de visualización \theta} D ( θ ¯ ) {\displaystyle D({\bar {\theta }})} D {\estilo de visualización D} θ {\estilo de visualización \theta}

Supuestos

En la derivación del DIC, se supone que la familia paramétrica especificada de distribuciones de probabilidad que generan observaciones futuras abarca el modelo verdadero. Esta suposición no siempre se cumple y es conveniente considerar procedimientos de evaluación del modelo en ese escenario.

Además, los datos observados se utilizan tanto para construir la distribución posterior como para evaluar los modelos estimados, por lo que DIC tiende a seleccionar modelos sobreajustados .

Extensiones

Ando (2007) sugirió una solución a las cuestiones anteriores con la propuesta del criterio de información predictiva bayesiano (BPIC). Ando (2010, cap. 8) proporcionó un análisis de varios criterios de selección de modelos bayesianos. Para evitar los problemas de sobreajuste de DIC, Ando (2011) desarrolló criterios de selección de modelos bayesianos desde un punto de vista predictivo. El criterio se calcula como

I do = D ¯ + 2 pag D = 2 mi θ [ registro ( pag ( y | θ ) ) ] + 2 pag D . {\displaystyle {\mathit {IC}}={\bar {D}}+2p_{D}=-2\mathbf {E} ^{\theta }[\log(p(y|\theta ))]+ 2p_{D}.}

El primer término es una medida de qué tan bien se ajusta el modelo a los datos, mientras que el segundo término es una penalización en la complejidad del modelo. Tenga en cuenta que la p en esta expresión es la distribución predictiva en lugar de la probabilidad anterior.

Véase también

Referencias

  • McElreath, Richard (29 de enero de 2015). «Statistical Rethinking Lecture 8 (on DIC and other information criteria)» (Replanteamiento estadístico, lección 8 (sobre DIC y otros criterios de información)). Archivado desde el original el 21 de diciembre de 2021 – vía YouTube .
Obtenido de "https://es.wikipedia.org/w/index.php?title=Criterio_de_información_de_desviación&oldid=1192383011"