Conjugado anterior

Concepto en la teoría de la probabilidad

En la teoría de probabilidad bayesiana , si, dada una función de verosimilitud , la distribución posterior está en la misma familia de distribución de probabilidad que la distribución de probabilidad anterior , la anterior y la posterior se denominan distribuciones conjugadas con respecto a esa función de verosimilitud y la anterior se denomina anterior conjugada para la función de verosimilitud . pag ( incógnita θ ) {\displaystyle p(x\mid \theta )} pag ( θ incógnita ) {\displaystyle p(\theta \mid x)} pag ( θ ) {\displaystyle p(\theta )} pag ( incógnita θ ) {\displaystyle p(x\mid \theta )}

Una distribución a priori conjugada es una conveniencia algebraica, ya que proporciona una expresión en forma cerrada para la distribución a posteriori; de lo contrario, puede ser necesaria la integración numérica . Además, las distribuciones a priori conjugadas pueden brindar intuición al mostrar de manera más transparente cómo una función de verosimilitud actualiza una distribución a priori.

El concepto, así como el término "prior conjugado", fueron introducidos por Howard Raiffa y Robert Schlaifer en su trabajo sobre la teoría de la decisión bayesiana . [1] Un concepto similar había sido descubierto independientemente por George Alfred Barnard . [2]

Ejemplo

La forma de la distribución conjugada anterior se puede determinar generalmente mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, considere una variable aleatoria que consiste en el número de éxitos en ensayos de Bernoulli con probabilidad de éxito desconocida en [0,1]. Esta variable aleatoria seguirá la distribución binomial , con una función de masa de probabilidad de la forma s {\estilo de visualización s} norte {\estilo de visualización n} q {\estilo de visualización q}

pag ( s ) = ( norte s ) q s ( 1 q ) norte s {\displaystyle p(s)={n \choose s}q^{s}(1-q)^{ns}}

La distribución conjugada previa habitual es la distribución beta con parámetros ( , ): alfa {\estilo de visualización \alpha} β {\estilo de visualización \beta}

pag ( q ) = q alfa 1 ( 1 q ) β 1 B ( alfa , β ) {\displaystyle p(q)={q^{\alpha -1}(1-q)^{\beta -1} \sobre \mathrm {B} (\alpha ,\beta )}}

donde y se eligen para reflejar cualquier creencia o información existente ( y darían una distribución uniforme ) y es la función Beta actuando como una constante normalizadora . alfa {\estilo de visualización \alpha} β {\estilo de visualización \beta} alfa = 1 {\displaystyle \alpha = 1} β = 1 {\displaystyle \beta = 1} B ( alfa , β ) {\displaystyle \mathrm {B} (\alpha,\beta)}

En este contexto, y se denominan hiperparámetros (parámetros de la distribución a priori), para distinguirlos de los parámetros del modelo subyacente (aquí ). Una característica típica de las distribuciones a priori conjugadas es que la dimensionalidad de los hiperparámetros es una unidad mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, entonces habrá un hiperparámetro más que un parámetro; pero esto también se aplica a los parámetros con valores vectoriales y matriciales. (Véase el artículo general sobre la familia exponencial , y también considere la distribución Wishart , la distribución a priori conjugada de la matriz de covarianza de una distribución normal multivariante , para un ejemplo en el que está implicada una gran dimensionalidad). alfa {\estilo de visualización \alpha} β {\estilo de visualización \beta} q {\estilo de visualización q}

Si tomamos una muestra de esta variable aleatoria y obtenemos éxitos y fracasos, entonces tenemos s {\estilo de visualización s} F = norte s {\displaystyle f=ns}

PAG ( s , F q = incógnita ) = ( s + F s ) incógnita s ( 1 incógnita ) F , PAG ( q = incógnita ) = incógnita alfa 1 ( 1 incógnita ) β 1 B ( alfa , β ) , PAG ( q = incógnita s , F ) = PAG ( s , F incógnita ) PAG ( incógnita ) PAG ( s , F y ) PAG ( y ) d y = ( s + F s ) incógnita s + alfa 1 ( 1 incógnita ) F + β 1 / B ( alfa , β ) y = 0 1 ( ( s + F s ) y s + alfa 1 ( 1 y ) F + β 1 / B ( alfa , β ) ) d y = incógnita s + alfa 1 ( 1 incógnita ) F + β 1 B ( s + alfa , F + β ) , {\displaystyle {\begin{aligned}P(s,f\mid q=x)&={s+f \choose s}x^{s}(1-x)^{f},\\P(q=x)&={x^{\alpha -1}(1-x)^{\beta -1} \sobre \mathrm {B} (\alpha ,\beta )},\\P(q=x\mid s,f)&={\frac {P(s,f\mid x)P(x)}{\int P(s,f\mid y)P(y)dy}}\\&={{{s+f \choose s}x^{s+\alpha -1}(1-x)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )} \sobre \int _{y=0}^{1}\left({s+f \choose s}y^{s+\alpha -1}(1-y)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )\right)dy}\\&={x^{s+\alpha -1}(1-x)^{f+\beta -1} \sobre \mathrm {B} (s+\alpha ,f+\beta )},\end{alineado}}}

que es otra distribución Beta con parámetros . Esta distribución posterior podría entonces usarse como distribución previa para más muestras, con los hiperparámetros simplemente agregando cada pieza adicional de información a medida que llega. ( alfa + s , β + F ) {\displaystyle (\alfa+s,\beta+f)}

Interpretaciones

Pseudo-observaciones

A menudo resulta útil pensar en los hiperparámetros de una distribución a priori conjugada como si se hubieran observado un cierto número de pseudoobservaciones con propiedades especificadas por los parámetros. Por ejemplo, los valores y de una distribución beta pueden considerarse como correspondientes a éxitos y fracasos si se utiliza el modo posterior para elegir un ajuste óptimo de parámetros, o éxitos y fracasos si se utiliza la media posterior para elegir un ajuste óptimo de parámetros. En general, para casi todas las distribuciones a priori conjugadas, los hiperparámetros pueden interpretarse en términos de pseudoobservaciones. Esto puede ayudar a proporcionar intuición detrás de las ecuaciones de actualización a menudo desordenadas y ayudar a elegir hiperparámetros razonables para una distribución a priori. alfa {\estilo de visualización \alpha} β {\estilo de visualización \beta} alfa 1 {\displaystyle \alpha -1} β 1 {\displaystyle \beta -1} alfa {\estilo de visualización \alpha} β {\estilo de visualización \beta}

Sistema dinámico

Se puede pensar en el condicionamiento de valores previos conjugados como la definición de un tipo de sistema dinámico (de tiempo discreto) : a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" del sistema, correspondiente al "aprendizaje". Comenzar en diferentes puntos produce diferentes flujos a lo largo del tiempo. Esto es nuevamente análogo al sistema dinámico definido por un operador lineal, pero tenga en cuenta que, dado que diferentes muestras conducen a diferentes inferencias, esto no depende simplemente del tiempo sino más bien de los datos a lo largo del tiempo. Para enfoques relacionados, consulte Estimación bayesiana recursiva y Asimilación de datos .

Ejemplo práctico

Supongamos que en tu ciudad funciona un servicio de alquiler de coches. Los conductores pueden dejar y recoger los coches en cualquier lugar dentro de los límites de la ciudad. Puedes buscar y alquilar coches mediante una aplicación.

Supongamos que desea encontrar la probabilidad de encontrar un coche de alquiler a poca distancia de su domicilio a cualquier hora del día.

Durante tres días, miras la aplicación y encuentras la siguiente cantidad de autos a poca distancia de tu domicilio: incógnita = [ 3 , 4 , 1 ] {\displaystyle \mathbf {x} =[3,4,1]}

Supongamos que suponemos que los datos proceden de una distribución de Poisson . En ese caso, podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo, que es Utilizando esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un coche disponible en un día determinado: la = 3 + 4 + 1 3 2.67. {\textstyle \lambda ={\frac {3+4+1}{3}}\aproximadamente 2,67.} pag ( incógnita > 0 | la 2.67 ) = 1 pag ( incógnita = 0 | la 2.67 ) = 1 2.67 0 mi 2.67 0 ! 0,93 {\textstyle p(x>0|\lambda \approx 2.67)=1-p(x=0|\lambda \approx 2.67)=1-{\frac {2.67^{0}e^{-2.67}}{0!}}\approx 0.93}

Esta es la distribución de Poisson que tiene más probabilidades de haber generado los datos observados . Pero los datos también podrían haber venido de otra distribución de Poisson, por ejemplo, una con , o , etc. De hecho, hay un número infinito de distribuciones de Poisson que podrían haber generado los datos observados. Con relativamente pocos puntos de datos, deberíamos estar bastante inseguros acerca de qué distribución de Poisson exacta generó estos datos. Intuitivamente, deberíamos tomar en cambio un promedio ponderado de la probabilidad de para cada una de esas distribuciones de Poisson, ponderada por la probabilidad de cada una de ellas, dados los datos que hemos observado . x {\displaystyle \mathbf {x} } λ = 3 {\displaystyle \lambda =3} λ = 2 {\displaystyle \lambda =2} p ( x > 0 | λ ) {\displaystyle p(x>0|\lambda )} x {\displaystyle \mathbf {x} }

En general, esta cantidad se conoce como distribución predictiva posterior , donde es un nuevo punto de datos, son los datos observados y son los parámetros del modelo. Usando el teorema de Bayes podemos expandir , por lo tanto , En general, esta integral es difícil de calcular. Sin embargo, si elige una distribución previa conjugada , se puede derivar una expresión de forma cerrada. Esta es la columna predictiva posterior en las tablas siguientes. p ( x | x ) = θ p ( x | θ ) p ( θ | x ) d θ , {\displaystyle p(x|\mathbf {x} )=\int _{\theta }p(x|\theta )p(\theta |\mathbf {x} )d\theta \,,} x {\displaystyle x} x {\displaystyle \mathbf {x} } θ {\displaystyle \theta } p ( θ | x ) = p ( x | θ ) p ( θ ) p ( x ) , {\displaystyle p(\theta |\mathbf {x} )={\frac {p(\mathbf {x} |\theta )p(\theta )}{p(\mathbf {x} )}}\,,} p ( x | x ) = θ p ( x | θ ) p ( x | θ ) p ( θ ) p ( x ) d θ . {\displaystyle p(x|\mathbf {x} )=\int _{\theta }p(x|\theta ){\frac {p(\mathbf {x} |\theta )p(\theta )}{p(\mathbf {x} )}}d\theta \,.} p ( θ ) {\displaystyle p(\theta )}

Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución previa sobre la tasa de las distribuciones de Poisson, entonces el predictor posterior es la distribución binomial negativa , como se puede ver en la tabla siguiente. La distribución Gamma está parametrizada por dos hiperparámetros , que tenemos que elegir. Al observar los gráficos de la distribución Gamma, elegimos , que parece ser un previo razonable para el número promedio de automóviles. La elección de hiperparámetros previos es inherentemente subjetiva y se basa en el conocimiento previo. α , β {\displaystyle \alpha ,\beta } α = β = 2 {\displaystyle \alpha =\beta =2}

Dados los hiperparámetros anteriores , podemos calcular los hiperparámetros posteriores y α {\displaystyle \alpha } β {\displaystyle \beta } α = α + i x i = 2 + 3 + 4 + 1 = 10 {\textstyle \alpha '=\alpha +\sum _{i}x_{i}=2+3+4+1=10} β = β + n = 2 + 3 = 5 {\textstyle \beta '=\beta +n=2+3=5}

Dados los hiperparámetros posteriores, finalmente podemos calcular el predictor posterior de p ( x > 0 | x ) = 1 p ( x = 0 | x ) = 1 N B ( 0 | 10 , 5 1 + 5 ) 0.84 {\textstyle p(x>0|\mathbf {x} )=1-p(x=0|\mathbf {x} )=1-NB\left(0\,|\,10,{\frac {5}{1+5}}\right)\approx 0.84}

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que el predictivo posterior tiene en cuenta.

Tabla de distribuciones conjugadas

Sea n el número de observaciones. En todos los casos siguientes, se supone que los datos constan de n puntos (que serán vectores aleatorios en los casos multivariados). x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}}

Si la función de verosimilitud pertenece a la familia exponencial , entonces existe una distribución anterior conjugada, a menudo también en la familia exponencial; véase Familia exponencial: Distribuciones conjugadas .

Cuando la función de verosimilitud es una distribución discreta

Probabilidad
p ( x i | θ ) {\displaystyle p(x_{i}|\theta )}
Parámetros del modelo
θ {\displaystyle \theta }
Distribución previa (y posterior) conjugada
p ( θ | Θ ) , p ( θ | x , Θ ) = p ( θ | Θ ) {\displaystyle p(\theta |\Theta ),p(\theta |\mathbf {x} ,\Theta )=p(\theta |\Theta ')}
Hiperparámetros previos
Θ {\displaystyle \Theta }
Hiperparámetros posteriores [nota 1]
Θ {\displaystyle \Theta '}
Interpretación de hiperparámetrosPredicción posterior [nota 2]
p ( x ~ | x , Θ ) = p ( x ~ | Θ ) {\displaystyle p({\tilde {x}}|\mathbf {x} ,\Theta )=p({\tilde {x}}|\Theta ')}
Bernoullip (probabilidad)Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + i = 1 n x i , β + n i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } éxitos, fracasos [nota 3] β {\displaystyle \beta } p ( x ~ = 1 ) = α α + β {\displaystyle p({\tilde {x}}=1)={\frac {\alpha '}{\alpha '+\beta '}}}
( Bernouli )
Binomio
con número conocido de ensayos, m
p (probabilidad)Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + i = 1 n x i , β + i = 1 n N i i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } éxitos, fracasos [nota 3] β {\displaystyle \beta } BetaBin ( x ~ | α , β ) {\displaystyle \operatorname {BetaBin} ({\tilde {x}}|\alpha ',\beta ')}
( beta-binomial )
Binomio negativo
con número de falla conocido, r
p (probabilidad)Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + r n , β + i = 1 n x i {\displaystyle \alpha +rn,\,\beta +\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } éxitos totales, fracasos [nota 3] (es decir, experimentos, suponiendo que se mantiene fijo) β {\displaystyle \beta } β r {\displaystyle {\frac {\beta }{r}}} r {\displaystyle r} BetaNegBin ( x ~ | α , β ) {\displaystyle \operatorname {BetaNegBin} ({\tilde {x}}|\alpha ',\beta ')}

(binomio beta-negativo)

Pescadoλ (tasa)Gama k , θ R {\displaystyle k,\,\theta \in \mathbb {R} \!} k + i = 1 n x i ,   θ n θ + 1 {\displaystyle k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!} k {\displaystyle k} ocurrencias totales en intervalos 1 θ {\displaystyle {\frac {1}{\theta }}} NB ( x ~ k , 1 θ + 1 ) {\displaystyle \operatorname {NB} \left({\tilde {x}}\mid k',{\frac {1}{\theta '+1}}\right)}
( binomio negativo )
α , β {\displaystyle \alpha ,\,\beta \!} [nota 4] α + i = 1 n x i ,   β + n {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!} α {\displaystyle \alpha } ocurrencias totales en intervalos β {\displaystyle \beta } NB ( x ~ α , β 1 + β ) {\displaystyle \operatorname {NB} \left({\tilde {x}}\mid \alpha ',{\frac {\beta '}{1+\beta '}}\right)}
( binomio negativo )
Categóricop (vector de probabilidad), k (número de categorías; es decir, tamaño de p )Dirichlet α R k {\displaystyle {\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!} α + ( c 1 , , c k ) , {\displaystyle {\boldsymbol {\alpha }}+(c_{1},\ldots ,c_{k}),} ¿Dónde está el número de observaciones en la categoría i? c i {\displaystyle c_{i}} α i {\displaystyle \alpha _{i}} ocurrencias de la categoría [nota 3] i {\displaystyle i} p ( x ~ = i ) = α i i α i = α i + c i i α i + n {\displaystyle {\begin{aligned}p({\tilde {x}}=i)&={\frac {{\alpha _{i}}'}{\sum _{i}{\alpha _{i}}'}}\\&={\frac {\alpha _{i}+c_{i}}{\sum _{i}\alpha _{i}+n}}\end{aligned}}}
( categórico )
Multinomiop (vector de probabilidad), k (número de categorías; es decir, tamaño de p )Dirichlet α R k {\displaystyle {\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!} α + i = 1 n x i {\displaystyle {\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!} α i {\displaystyle \alpha _{i}} ocurrencias de la categoría [nota 3] i {\displaystyle i} DirMult ( x ~ α ) {\displaystyle \operatorname {DirMult} ({\tilde {\mathbf {x} }}\mid {\boldsymbol {\alpha }}')}
( Multinomio de Dirichlet )
Hipergeométrico
con tamaño de población total conocido, N
M (número de miembros objetivo)Beta-binomial [3] n = N , α , β {\displaystyle n=N,\alpha ,\,\beta \!} α + i = 1 n x i , β + i = 1 n N i i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } éxitos, fracasos [nota 3] β {\displaystyle \beta }
Geométricop 0 (probabilidad)Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + n , β + i = 1 n x i {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } Experimentos, fracasos totales [nota 3] β {\displaystyle \beta }

Cuando la función de verosimilitud es una distribución continua

Probabilidad
p ( x i | θ ) {\displaystyle p(x_{i}|\theta )}
Parámetros del modelo
θ {\displaystyle \theta }
Distribución previa (y posterior) conjugada p ( θ | Θ ) , p ( θ | x , Θ ) = p ( θ | Θ ) {\displaystyle p(\theta |\Theta ),p(\theta |\mathbf {x} ,\Theta )=p(\theta |\Theta ')} Hiperparámetros previos
Θ {\displaystyle \Theta }
Hiperparámetros posteriores [nota 1]
Θ {\displaystyle \Theta '}
Interpretación de hiperparámetrosPredicción posterior [nota 5]
p ( x ~ | x , Θ ) = p ( x ~ | Θ ) {\displaystyle p({\tilde {x}}|\mathbf {x} ,\Theta )=p({\tilde {x}}|\Theta ')}
Normal
con varianza conocida σ 2
μ (media)Normal μ 0 , σ 0 2 {\displaystyle \mu _{0},\,\sigma _{0}^{2}\!} 1 1 σ 0 2 + n σ 2 ( μ 0 σ 0 2 + i = 1 n x i σ 2 ) , ( 1 σ 0 2 + n σ 2 ) 1 {\displaystyle {\frac {1}{{\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}}}\left({\frac {\mu _{0}}{\sigma _{0}^{2}}}+{\frac {\sum _{i=1}^{n}x_{i}}{\sigma ^{2}}}\right),\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right)^{-1}} La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media de muestra. 1 / σ 0 2 {\displaystyle 1/\sigma _{0}^{2}} μ 0 {\displaystyle \mu _{0}} N ( x ~ | μ 0 , σ 0 2 + σ 2 ) {\displaystyle {\mathcal {N}}({\tilde {x}}|\mu _{0}',{\sigma _{0}^{2}}'+\sigma ^{2})} [4]
Normal
con precisión conocida τ
μ (media)Normal μ 0 , τ 0 1 {\displaystyle \mu _{0},\,\tau _{0}^{-1}\!} τ 0 μ 0 + τ i = 1 n x i τ 0 + n τ , ( τ 0 + n τ ) 1 {\displaystyle {\frac {\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}}{\tau _{0}+n\tau }},\,\left(\tau _{0}+n\tau \right)^{-1}} La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media de muestra. τ 0 {\displaystyle \tau _{0}} μ 0 {\displaystyle \mu _{0}} N ( x ~ μ 0 , 1 τ 0 + 1 τ ) {\displaystyle {\mathcal {N}}\left({\tilde {x}}\mid \mu _{0}',{\frac {1}{\tau _{0}'}}+{\frac {1}{\tau }}\right)} [4]
Normal
con media conocida μ
σ 2 (varianza)Gamma inversa α , β {\displaystyle \mathbf {\alpha ,\,\beta } } [nota 6] α + n 2 , β + i = 1 n ( x i μ ) 2 2 {\displaystyle \mathbf {\alpha } +{\frac {n}{2}},\,\mathbf {\beta } +{\frac {\sum _{i=1}^{n}{(x_{i}-\mu )^{2}}}{2}}} La varianza se estimó a partir de observaciones con varianza de muestra (es decir, con la suma de las desviaciones al cuadrado , donde las desviaciones son respecto de la media conocida ). 2 α {\displaystyle 2\alpha } β / α {\displaystyle \beta /\alpha } 2 β {\displaystyle 2\beta } μ {\displaystyle \mu } t 2 α ( x ~ | μ , σ 2 = β / α ) {\displaystyle t_{2\alpha '}({\tilde {x}}|\mu ,\sigma ^{2}=\beta '/\alpha ')} [4]
Normal
con media conocida μ
σ 2 (varianza)Chi-cuadrado inverso escalado ν , σ 0 2 {\displaystyle \nu ,\,\sigma _{0}^{2}\!} ν + n , ν σ 0 2 + i = 1 n ( x i μ ) 2 ν + n {\displaystyle \nu +n,\,{\frac {\nu \sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{\nu +n}}\!} La varianza se estimó a partir de observaciones con varianza de muestra. ν {\displaystyle \nu } σ 0 2 {\displaystyle \sigma _{0}^{2}} t ν ( x ~ | μ , σ 0 2 ) {\displaystyle t_{\nu '}({\tilde {x}}|\mu ,{\sigma _{0}^{2}}')} [4]
Normal
con media conocida μ
τ (precisión)Gama α , β {\displaystyle \alpha ,\,\beta \!} [nota 4] α + n 2 , β + i = 1 n ( x i μ ) 2 2 {\displaystyle \alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\!} La precisión se estimó a partir de observaciones con varianza de muestra (es decir, con la suma de las desviaciones al cuadrado , donde las desviaciones son respecto de la media conocida ). 2 α {\displaystyle 2\alpha } β / α {\displaystyle \beta /\alpha } 2 β {\displaystyle 2\beta } μ {\displaystyle \mu } t 2 α ( x ~ μ , σ 2 = β / α ) {\displaystyle t_{2\alpha '}({\tilde {x}}\mid \mu ,\sigma ^{2}=\beta '/\alpha ')} [4]
Normal [nota 7]μ y σ 2
Suponiendo intercambiabilidad
Gamma normal-inversa μ 0 , ν , α , β {\displaystyle \mu _{0},\,\nu ,\,\alpha ,\,\beta } ν μ 0 + n x ¯ ν + n , ν + n , α + n 2 , {\displaystyle {\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,}
β + 1 2 i = 1 n ( x i x ¯ ) 2 + n ν ν + n ( x ¯ μ 0 ) 2 2 {\displaystyle \beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}}
  • x ¯ {\displaystyle {\bar {x}}} ¿es la media de la muestra?
La media se estimó a partir de observaciones con media de muestra ; la varianza se estimó a partir de observaciones con media de muestra y suma de desviaciones al cuadrado ν {\displaystyle \nu } μ 0 {\displaystyle \mu _{0}} 2 α {\displaystyle 2\alpha } μ 0 {\displaystyle \mu _{0}} 2 β {\displaystyle 2\beta } t 2 α ( x ~ μ , β ( ν + 1 ) ν α ) {\displaystyle t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\nu '\alpha '}}\right)} [4]
Normalμ y τ
Suponiendo intercambiabilidad
Gamma normal μ 0 , ν , α , β {\displaystyle \mu _{0},\,\nu ,\,\alpha ,\,\beta } ν μ 0 + n x ¯ ν + n , ν + n , α + n 2 , {\displaystyle {\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,}
β + 1 2 i = 1 n ( x i x ¯ ) 2 + n ν ν + n ( x ¯ μ 0 ) 2 2 {\displaystyle \beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}}
  • x ¯ {\displaystyle {\bar {x}}} ¿es la media de la muestra?
La media se estimó a partir de observaciones con media de muestra , y la precisión se estimó a partir de observaciones con media de muestra y suma de desviaciones al cuadrado. ν {\displaystyle \nu } μ 0 {\displaystyle \mu _{0}} 2 α {\displaystyle 2\alpha } μ 0 {\displaystyle \mu _{0}} 2 β {\displaystyle 2\beta } t 2 α ( x ~ μ , β ( ν + 1 ) α ν ) {\displaystyle t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)} [4]
Normal multivariante con matriz de covarianza conocida Σμ (vector medio)Normal multivariante μ 0 , Σ 0 {\displaystyle {\boldsymbol {\boldsymbol {\mu }}}_{0},\,{\boldsymbol {\Sigma }}_{0}} ( Σ 0 1 + n Σ 1 ) 1 ( Σ 0 1 μ 0 + n Σ 1 x ¯ ) , {\displaystyle \left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}\left({\boldsymbol {\Sigma }}_{0}^{-1}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Sigma }}^{-1}\mathbf {\bar {x}} \right),}
( Σ 0 1 + n Σ 1 ) 1 {\displaystyle \left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } ¿es la media de la muestra?
La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media de muestra. Σ 0 1 {\displaystyle {\boldsymbol {\Sigma }}_{0}^{-1}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} N ( x ~ μ 0 , Σ 0 + Σ ) {\displaystyle {\mathcal {N}}({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{\boldsymbol {\Sigma }}_{0}}'+{\boldsymbol {\Sigma }})} [4]
Matriz normal multivariante con precisión conocida Λμ (vector medio)Normal multivariante μ 0 , Λ 0 {\displaystyle \mathbf {\boldsymbol {\mu }} _{0},\,{\boldsymbol {\Lambda }}_{0}} ( Λ 0 + n Λ ) 1 ( Λ 0 μ 0 + n Λ x ¯ ) , ( Λ 0 + n Λ ) {\displaystyle \left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)^{-1}\left({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Lambda }}\mathbf {\bar {x}} \right),\,\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } ¿es la media de la muestra?
La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media de muestra. Λ 0 {\displaystyle {\boldsymbol {\Lambda }}_{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} N ( x ~ μ 0 , Λ 0 1 + Λ 1 ) {\displaystyle {\mathcal {N}}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{{\boldsymbol {\Lambda }}_{0}}'}^{-1}+{\boldsymbol {\Lambda }}^{-1}\right)} [4]
Normal multivariante con media conocida μΣ (matriz de covarianza)Wishart inverso ν , Ψ {\displaystyle \nu ,\,{\boldsymbol {\Psi }}} n + ν , Ψ + i = 1 n ( x i μ ) ( x i μ ) T {\displaystyle n+\nu ,\,{\boldsymbol {\Psi }}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}} La matriz de covarianza se estimó a partir de observaciones con la suma de productos de desviación por pares. ν {\displaystyle \nu } Ψ {\displaystyle {\boldsymbol {\Psi }}} t ν p + 1 ( x ~ | μ , 1 ν p + 1 Ψ ) {\displaystyle t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Psi }}'\right)} [4]
Normal multivariante con media conocida μΛ (matriz de precisión)Deseo ν , V {\displaystyle \nu ,\,\mathbf {V} } n + ν , ( V 1 + i = 1 n ( x i μ ) ( x i μ ) T ) 1 {\displaystyle n+\nu ,\,\left(\mathbf {V} ^{-1}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}\right)^{-1}} La matriz de covarianza se estimó a partir de observaciones con la suma de productos de desviación por pares. ν {\displaystyle \nu } V 1 {\displaystyle \mathbf {V} ^{-1}} t ν p + 1 ( x ~ μ , 1 ν p + 1 V 1 ) {\displaystyle t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\mid {\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\mathbf {V} '}^{-1}\right)} [4]
Normal multivarianteμ (vector medio) y Σ (matriz de covarianza)normal-inversa-Wishart μ 0 , κ 0 , ν 0 , Ψ {\displaystyle {\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Psi }}} κ 0 μ 0 + n x ¯ κ 0 + n , κ 0 + n , ν 0 + n , {\displaystyle {\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,}
Ψ + C + κ 0 n κ 0 + n ( x ¯ μ 0 ) ( x ¯ μ 0 ) T {\displaystyle {\boldsymbol {\Psi }}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } ¿es la media de la muestra?
  • C = i = 1 n ( x i x ¯ ) ( x i x ¯ ) T {\displaystyle \mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}}
La media se estimó a partir de observaciones con media de muestra ; la matriz de covarianza se estimó a partir de observaciones con media de muestra y con suma de productos de desviación por pares κ 0 {\displaystyle \kappa _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} ν 0 {\displaystyle \nu _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} Ψ = ν 0 Σ 0 {\displaystyle {\boldsymbol {\Psi }}=\nu _{0}{\boldsymbol {\Sigma }}_{0}} t ν 0 p + 1 ( x ~ | μ 0 , κ 0 + 1 κ 0 ( ν 0 p + 1 ) Ψ ) {\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'\right)} [4]
Normal multivarianteμ (vector medio) y Λ (matriz de precisión)normal-Wishart μ 0 , κ 0 , ν 0 , V {\displaystyle {\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,\mathbf {V} } κ 0 μ 0 + n x ¯ κ 0 + n , κ 0 + n , ν 0 + n , {\displaystyle {\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,}
( V 1 + C + κ 0 n κ 0 + n ( x ¯ μ 0 ) ( x ¯ μ 0 ) T ) 1 {\displaystyle \left(\mathbf {V} ^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}\right)^{-1}}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } ¿es la media de la muestra?
  • C = i = 1 n ( x i x ¯ ) ( x i x ¯ ) T {\displaystyle \mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}}
La media se estimó a partir de observaciones con media de muestra ; la matriz de covarianza se estimó a partir de observaciones con media de muestra y con suma de productos de desviación por pares κ 0 {\displaystyle \kappa _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} ν 0 {\displaystyle \nu _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} V 1 {\displaystyle \mathbf {V} ^{-1}} t ν 0 p + 1 ( x ~ μ 0 , κ 0 + 1 κ 0 ( ν 0 p + 1 ) V 1 ) {\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\mathbf {V} '}^{-1}\right)} [4]
Uniforme U ( 0 , θ ) {\displaystyle U(0,\theta )\!} Pareto x m , k {\displaystyle x_{m},\,k\!} max { x 1 , , x n , x m } , k + n {\displaystyle \max\{\,x_{1},\ldots ,x_{n},x_{\mathrm {m} }\},\,k+n\!} k {\displaystyle k} Observaciones con valor máximo x m {\displaystyle x_{m}}
Pareto
con mínimo conocido x m
k (forma)Gama α , β {\displaystyle \alpha ,\,\beta \!} α + n , β + i = 1 n ln x i x m {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!} α {\displaystyle \alpha } observaciones con la suma del orden de magnitud de cada observación (es decir, el logaritmo de la relación de cada observación con el mínimo ) β {\displaystyle \beta } x m {\displaystyle x_{m}}
Weibull
con forma conocida β
θ (escala)Gamma inversa [3] a , b {\displaystyle a,b\!} a + n , b + i = 1 n x i β {\displaystyle a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!} a {\displaystyle a} Observaciones con la suma de la potencia β' de cada observación b {\displaystyle b}
Log-normalLo mismo que para la distribución normal después de aplicar el logaritmo natural a los datos de los hiperparámetros posteriores. Consulte Fink (1997, págs. 21-22) para ver los detalles.
Exponencialλ (tasa)Gama α , β {\displaystyle \alpha ,\,\beta \!} [nota 4] α + n , β + i = 1 n x i {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } observaciones que suman [5] β {\displaystyle \beta } Lomax ( x ~ β , α ) {\displaystyle \operatorname {Lomax} ({\tilde {x}}\mid \beta ',\alpha ')}
( Distribución Lomax )
Gamma
con forma conocida α
β (tasa)Gama α 0 , β 0 {\displaystyle \alpha _{0},\,\beta _{0}\!} α 0 + n α , β 0 + i = 1 n x i {\displaystyle \alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!} α 0 / α {\displaystyle \alpha _{0}/\alpha } observaciones con suma β 0 {\displaystyle \beta _{0}} CG ( x ~ α , α 0 , β 0 ) = β ( x ~ | α , α 0 , 1 , β 0 ) {\displaystyle \operatorname {CG} ({\tilde {\mathbf {x} }}\mid \alpha ,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}|\alpha ,{\alpha _{0}}',1,{\beta _{0}}')} [nota 8]
Gamma inversa
con forma conocida α
β (escala inversa)Gama α 0 , β 0 {\displaystyle \alpha _{0},\,\beta _{0}\!} α 0 + n α , β 0 + i = 1 n 1 x i {\displaystyle \alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!} α 0 / α {\displaystyle \alpha _{0}/\alpha } observaciones con suma β 0 {\displaystyle \beta _{0}}
Gamma
con tasa conocida β
α (forma) a α 1 β α c Γ ( α ) b {\displaystyle \propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha )^{b}}}} a , b , c {\displaystyle a,\,b,\,c\!} a i = 1 n x i , b + n , c + n {\displaystyle a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!} b {\displaystyle b} o observaciones ( para estimar , para estimar ) con producto c {\displaystyle c} b {\displaystyle b} α {\displaystyle \alpha } c {\displaystyle c} β {\displaystyle \beta } a {\displaystyle a}
Gamma [3]α (forma), β (escala inversa) p α 1 e β q Γ ( α ) r β α s {\displaystyle \propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha )^{r}\beta ^{-\alpha s}}}} p , q , r , s {\displaystyle p,\,q,\,r,\,s\!} p i = 1 n x i , q + i = 1 n x i , r + n , s + n {\displaystyle p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!} α {\displaystyle \alpha } se estimó a partir de observaciones con producto ; se estimó a partir de observaciones con suma r {\displaystyle r} p {\displaystyle p} β {\displaystyle \beta } s {\displaystyle s} q {\displaystyle q}
Betaα , β Γ ( α + β ) k p α q β Γ ( α ) k Γ ( β ) k {\displaystyle \propto {\frac {\Gamma (\alpha +\beta )^{k}\,p^{\alpha }\,q^{\beta }}{\Gamma (\alpha )^{k}\,\Gamma (\beta )^{k}}}} p , q , k {\displaystyle p,\,q,\,k\!} p i = 1 n x i , q i = 1 n ( 1 x i ) , k + n {\displaystyle p\prod _{i=1}^{n}x_{i},\,q\prod _{i=1}^{n}(1-x_{i}),\,k+n\!} α {\displaystyle \alpha } y se estimaron a partir de observaciones con producto y producto de los complementos. β {\displaystyle \beta } k {\displaystyle k} p {\displaystyle p} q {\displaystyle q}

Véase también

Notas

  1. ^ ab Se denota con los mismos símbolos que los hiperparámetros anteriores con primos añadidos ('). Por ejemplo, se denota α {\displaystyle \alpha } α {\displaystyle \alpha '}
  2. ^ Esta es la distribución predictiva posterior de un nuevo punto de datos dados los puntos de datos observados, con los parámetros marginados . Las variables con comillas simples indican los valores posteriores de los parámetros. x ~ {\displaystyle {\tilde {x}}}
  3. ^ abcdefg La interpretación exacta de los parámetros de una distribución beta en términos de número de éxitos y fracasos depende de qué función se utilice para extraer una estimación puntual de la distribución. La media de una distribución beta es que corresponde a éxitos y fracasos, mientras que la moda es que corresponde a éxitos y fracasos. Los bayesianos generalmente prefieren usar la media posterior en lugar de la moda posterior como estimación puntual, justificada por una función de pérdida cuadrática, y el uso de y es más conveniente matemáticamente, mientras que el uso de y tiene la ventaja de que una distribución previa uniforme corresponde a 0 éxitos y 0 fracasos. Los mismos problemas se aplican a la distribución de Dirichlet . α α + β , {\displaystyle {\frac {\alpha }{\alpha +\beta }},} α {\displaystyle \alpha } β {\displaystyle \beta } α 1 α + β 2 , {\displaystyle {\frac {\alpha -1}{\alpha +\beta -2}},} α 1 {\displaystyle \alpha -1} β 1 {\displaystyle \beta -1} α {\displaystyle \alpha } β {\displaystyle \beta } α 1 {\displaystyle \alpha -1} β 1 {\displaystyle \beta -1} B e t a ( 1 , 1 ) {\displaystyle {\rm {Beta}}(1,1)}
  4. ^ abc β es tasa o escala inversa. En la parametrización de la distribución gamma , θ = 1/ β y k = α .
  5. ^ Esta es la distribución predictiva posterior de un nuevo punto de datos dados los puntos de datos observados, con los parámetros marginados . Las variables con comillas indican los valores posteriores de los parámetros y se refieren a la distribución normal y a la distribución t de Student , respectivamente, o a la distribución normal multivariada y a la distribución t multivariada en los casos multivariados. x ~ {\displaystyle {\tilde {x}}} N {\displaystyle {\mathcal {N}}} t n {\displaystyle t_{n}}
  6. ^ En términos de la gamma inversa , es un parámetro de escala β {\displaystyle \beta }
  7. ^ Una distribución conjugada previa diferente para media y varianza desconocidas, pero con una relación lineal fija entre ellas, se encuentra en la mezcla de varianza-media normal , con la gaussiana inversa generalizada como distribución de mezcla conjugada.
  8. ^ es una distribución gamma compuesta ; aquí hay una distribución beta prima generalizada . CG ( ) {\displaystyle \operatorname {CG} ()} β ( ) {\displaystyle \operatorname {\beta '} ()}

Referencias

  1. ^ Howard Raiffa y Robert Schlaifer . Teoría de la decisión estadística aplicada . División de Investigación, Escuela de Posgrado de Administración de Empresas, Universidad de Harvard, 1961.
  2. ^ Jeff Miller et al. Early Known Uses of Some of the Words of Mathematics, "distribuciones previas conjugadas". Documento electrónico, revisión del 13 de noviembre de 2005, consultado el 2 de diciembre de 2005.
  3. ^ abc Fink, Daniel (1997). "Un compendio de priores conjugados" (PDF) . CiteSeerX  10.1.1.157.5540 . Archivado desde el original (PDF) el 29 de mayo de 2009.
  4. ^ abcdefghijklm Murphy, Kevin P. (2007), Análisis bayesiano conjugado de la distribución gaussiana (PDF)
  5. ^ Liu, Han; Wasserman, Larry (2014). Aprendizaje automático estadístico (PDF) . pág. 314.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Conjugate_prior&oldid=1255124478"