Parte de una serie sobre |
Estadísticas bayesianas |
---|
Posterior = Probabilidad × Anterior ÷ Evidencia |
Fondo |
Construcción de modelos |
Aproximación posterior |
Estimadores |
Aproximación de evidencia |
Evaluación del modelo |
|
El factor de Bayes es una relación de dos modelos estadísticos en competencia representados por su evidencia , y se utiliza para cuantificar el apoyo de un modelo sobre el otro. [1] Los modelos en cuestión pueden tener un conjunto común de parámetros, como una hipótesis nula y una alternativa, pero esto no es necesario; por ejemplo, también podría ser un modelo no lineal en comparación con su aproximación lineal . El factor de Bayes puede considerarse como un análogo bayesiano de la prueba de razón de verosimilitud , aunque utiliza la verosimilitud integrada (es decir, marginal) en lugar de la verosimilitud maximizada. Como tal, ambas cantidades solo coinciden bajo hipótesis simples (por ejemplo, dos valores de parámetros específicos). [2] Además, en contraste con la prueba de significancia de la hipótesis nula , los factores de Bayes respaldan la evaluación de la evidencia a favor de una hipótesis nula, en lugar de solo permitir que la nula sea rechazada o no. [3]
Aunque conceptualmente simple, el cálculo del factor de Bayes puede ser un desafío dependiendo de la complejidad del modelo y las hipótesis. [4] Dado que las expresiones de forma cerrada de la probabilidad marginal generalmente no están disponibles, se han sugerido aproximaciones numéricas basadas en muestras MCMC . [5] Para ciertos casos especiales, se pueden derivar expresiones algebraicas simplificadas; por ejemplo, la razón de densidad de Savage-Dickey en el caso de una hipótesis precisa (con restricciones de igualdad) contra una alternativa sin restricciones. [6] [7] Otra aproximación, derivada de la aplicación de la aproximación de Laplace a las probabilidades integradas, se conoce como el criterio de información bayesiano (BIC); [8] en grandes conjuntos de datos, el factor de Bayes se acercará al BIC a medida que la influencia de los valores anteriores disminuya. En conjuntos de datos pequeños, los valores anteriores generalmente importan y no deben ser impropios ya que el factor de Bayes no estará definido si cualquiera de las dos integrales en su razón no es finita.
El factor de Bayes es la relación de dos probabilidades marginales, es decir, las probabilidades de dos modelos estadísticos integrados sobre las probabilidades previas de sus parámetros. [9]
La probabilidad posterior de un modelo M dados los datos D viene dada por el teorema de Bayes :
El término clave dependiente de los datos representa la probabilidad de que se produzcan algunos datos bajo el supuesto del modelo M ; evaluarlo correctamente es la clave para la comparación de modelos bayesianos.
Dado un problema de selección de modelos en el que se desea elegir entre dos modelos sobre la base de datos observados D , la plausibilidad de los dos modelos diferentes M 1 y M 2 , parametrizados por los vectores de parámetros del modelo y , se evalúa mediante el factor de Bayes K dado por
Cuando los dos modelos tienen la misma probabilidad previa, de modo que , el factor de Bayes es igual a la relación de las probabilidades posteriores de M 1 y M 2 . Si en lugar de la integral del factor de Bayes, se utiliza la probabilidad correspondiente a la estimación de máxima probabilidad del parámetro para cada modelo estadístico, entonces la prueba se convierte en una prueba de razón de verosimilitud clásica . A diferencia de una prueba de razón de verosimilitud, esta comparación de modelos bayesianos no depende de ningún conjunto único de parámetros, ya que integra todos los parámetros en cada modelo (con respecto a las probabilidades previas respectivas). Una ventaja del uso de factores de Bayes es que automáticamente, y de manera bastante natural, incluye una penalización por incluir demasiada estructura del modelo. [10] Por lo tanto, protege contra el sobreajuste . Para los modelos donde no está disponible una versión explícita de la probabilidad o es demasiado costosa de evaluar numéricamente, se puede utilizar el cálculo bayesiano aproximado para la selección del modelo en un marco bayesiano, [11] con la salvedad de que las estimaciones bayesianas aproximadas de los factores de Bayes a menudo están sesgadas. [12]
Otros enfoques son:
Un valor de K > 1 significa que M 1 está más fuertemente respaldado por los datos bajo consideración que M 2 . Nótese que la prueba de hipótesis clásica le da a una hipótesis (o modelo) el estatus preferente (la "hipótesis nula"), y solo considera evidencia en su contra . El hecho de que un factor de Bayes pueda producir evidencia a favor y no solo en contra de una hipótesis nula es una de las ventajas clave de este método de análisis. [13]
Harold Jeffreys proporcionó una escala ( escala de Jeffreys ) para la interpretación de : [14]
K | dHart | pedacitos | Fuerza de la evidencia |
---|---|---|---|
< 10 0 | < 1 | < 0 | Negativo (soporta M 2 ) |
10 0 a 10 1/2 | 1 a 3.2 | 0 a 1,6 | Apenas vale la pena mencionarlo |
10 1/2 a 10 1 | 3.2 a 10 | 1,6 a 3,3 | Sustancial |
10 1 a 10 3/2 | 10 a 31,6 | 3,3 a 5,0 | Fuerte |
10 3/2 a 10 2 | 31,6 a 100 | 5.0 a 6.6 | Acérrimo |
> 10 2 | > 100 | > 6.6 | Decisivo |
La segunda columna muestra los pesos de evidencia correspondientes en decihartleys (también conocidos como decibans ); se agregan bits en la tercera columna para mayor claridad. La tabla continúa en la otra dirección, de modo que, por ejemplo, es evidencia decisiva para .
Kass y Raftery (1995) ofrecen una tabla alternativa, ampliamente citada: [10]
registro 10 K | K | Fuerza de la evidencia |
---|---|---|
0 a 1/2 | 1 a 3.2 | No vale más que una simple mención |
1/2 a 1 | 3.2 a 10 | Sustancial |
1 a 2 | 10 a 100 | Fuerte |
> 2 | > 100 | Decisivo |
Según IJ Good , la diferencia apenas perceptible de los humanos en su vida cotidiana, cuando se trata de un cambio en el grado de creencia en una hipótesis, es de aproximadamente un factor de 1,3x, o 1 deciban, o 1/3 de un bit, o de 1:1 a 5:4 en razón de probabilidades. [15]
Supongamos que tenemos una variable aleatoria que produce un éxito o un fracaso. Queremos comparar un modelo M 1 donde la probabilidad de éxito es q = 1 ⁄ 2 , y otro modelo M 2 donde q es desconocido y tomamos una distribución previa para q que es uniforme en [0,1]. Tomamos una muestra de 200 y encontramos 115 éxitos y 85 fracasos. La probabilidad se puede calcular de acuerdo con la distribución binomial :
Así que tenemos para M 1
mientras que para M 2 tenemos
La relación es entonces 1,2, lo cual "apenas vale la pena mencionar", aunque apunta muy ligeramente hacia M 1 .
Una prueba de hipótesis frecuentista de M 1 (considerada aquí como una hipótesis nula ) habría producido un resultado muy diferente. Tal prueba dice que M 1 debe rechazarse en el nivel de significación del 5%, ya que la probabilidad de obtener 115 o más éxitos de una muestra de 200 si q = 1 ⁄ 2 es 0,02, y como una prueba de dos colas de obtener una cifra tan extrema como o más extrema que 115 es 0,04. Tenga en cuenta que 115 está a más de dos desviaciones estándar de 100. Por lo tanto, mientras que una prueba de hipótesis frecuentista produciría resultados significativos en el nivel de significación del 5%, el factor de Bayes difícilmente considera que este sea un resultado extremo. Tenga en cuenta, sin embargo, que una previa no uniforme (por ejemplo, una que refleje el hecho de que espera que el número de éxitos y fracasos sea del mismo orden de magnitud) podría dar como resultado un factor de Bayes que esté más de acuerdo con la prueba de hipótesis frecuentista.
Una prueba clásica de razón de verosimilitud habría encontrado la estimación de máxima verosimilitud para q , es decir , de donde
(en lugar de promediar todos los q posibles ). Esto da una razón de verosimilitud de 0,1 y apunta hacia M 2 .
M 2 es un modelo más complejo que M 1 porque tiene un parámetro libre que le permite modelar los datos con mayor precisión. La capacidad de los factores de Bayes para tener esto en cuenta es una razón por la que la inferencia bayesiana se ha propuesto como justificación teórica y generalización de la navaja de Occam , reduciendo los errores de tipo I. [16]
Por otra parte, el método moderno de verosimilitud relativa tiene en cuenta el número de parámetros libres en los modelos, a diferencia del cociente de verosimilitud clásico. El método de verosimilitud relativa podría aplicarse de la siguiente manera. El modelo M 1 tiene 0 parámetros, por lo que su valor de criterio de información de Akaike (AIC) es . El modelo M 2 tiene 1 parámetro, por lo que su valor de AIC es . Por lo tanto, M 1 es aproximadamente 2 veces más probable que M 2 para minimizar la pérdida de información. Por lo tanto, M 2 es ligeramente preferido, pero M 1 no puede excluirse.
{{cite book}}
: CS1 maint: location missing publisher (link)