Probabilidad posterior

Probabilidad condicional utilizada en la estadística bayesiana

La probabilidad posterior es un tipo de probabilidad condicional que resulta de actualizar la probabilidad previa con información resumida por la probabilidad a través de una aplicación de la regla de Bayes . [1] Desde una perspectiva epistemológica , la probabilidad posterior contiene todo lo que hay que saber sobre una proposición incierta (como una hipótesis científica o valores de parámetros), dado el conocimiento previo y un modelo matemático que describe las observaciones disponibles en un momento particular. [2] Después de la llegada de nueva información, la probabilidad posterior actual puede servir como la previa en otra ronda de actualización bayesiana. [3]

En el contexto de las estadísticas bayesianas , la distribución de probabilidad posterior suele describir la incertidumbre epistémica sobre los parámetros estadísticos condicionados a una colección de datos observados. A partir de una distribución posterior dada, se pueden derivar varias estimaciones puntuales e interválicas , como el máximo a posteriori (MAP) o el intervalo de densidad posterior más alto (HPDI). [4] Pero, si bien conceptualmente es simple, la distribución posterior generalmente no es manejable y, por lo tanto, necesita ser aproximada analítica o numéricamente. [5]

Definición en el caso distribucional

En la estadística bayesiana, la probabilidad posterior es la probabilidad de los parámetros dada la evidencia , y se denota . θ {\displaystyle \theta } X {\displaystyle X} p ( θ | X ) {\displaystyle p(\theta |X)}

Contrasta con la función de verosimilitud , que es la probabilidad de la evidencia dados los parámetros: . p ( X | θ ) {\displaystyle p(X|\theta )}

Los dos están relacionados de la siguiente manera:

Dada una creencia previa de que una función de distribución de probabilidad es y que las observaciones tienen una probabilidad , entonces la probabilidad posterior se define como p ( θ ) {\displaystyle p(\theta )} x {\displaystyle x} p ( x | θ ) {\displaystyle p(x|\theta )}

p ( θ | x ) = p ( x | θ ) p ( x ) p ( θ ) {\displaystyle p(\theta |x)={\frac {p(x|\theta )}{p(x)}}p(\theta )} , [6]

donde es la constante de normalización y se calcula como p ( x ) {\displaystyle p(x)}

p ( x ) = p ( x | θ ) p ( θ ) d θ {\displaystyle p(x)=\int p(x|\theta )p(\theta )d\theta }

para continua , o sumando todos los valores posibles de para discreta . [7] θ {\displaystyle \theta } p ( x | θ ) p ( θ ) {\displaystyle p(x|\theta )p(\theta )} θ {\displaystyle \theta } θ {\displaystyle \theta }

La probabilidad posterior es por tanto proporcional al producto Probabilidad · Probabilidad previa . [8]

Ejemplo

Supongamos que en una escuela el 60% de los alumnos son niños y el 40% niñas. Las niñas llevan pantalones o faldas en igual número; todos los niños llevan pantalones. Un observador ve a un estudiante (al azar) desde la distancia; todo lo que puede ver es que este estudiante lleva pantalones. ¿Cuál es la probabilidad de que este estudiante sea una niña? La respuesta correcta se puede calcular utilizando el teorema de Bayes.

El evento es que el estudiante observado es una niña y el evento es que el estudiante observado lleva pantalones. Para calcular la probabilidad posterior , primero necesitamos saber: G {\displaystyle G} T {\displaystyle T} P ( G | T ) {\displaystyle P(G|T)}

  • P ( G ) {\displaystyle P(G)} , o la probabilidad de que el estudiante sea una niña independientemente de cualquier otra información. Dado que el observador ve un estudiante al azar, lo que significa que todos los estudiantes tienen la misma probabilidad de ser observados, y el porcentaje de niñas entre los estudiantes es del 40%, esta probabilidad es igual a 0,4.
  • P ( B ) {\displaystyle P(B)} , o la probabilidad de que el estudiante no sea una niña (es decir, un niño) independientemente de cualquier otra información ( es el evento complementario de ). Esto es 60%, o 0,6. B {\displaystyle B} G {\displaystyle G}
  • P ( T | G ) {\displaystyle P(T|G)} , o la probabilidad de que el estudiante use pantalones dado que es una niña. Como es tan probable que usen faldas como pantalones, esto es 0,5.
  • P ( T | B ) {\displaystyle P(T|B)} , o la probabilidad de que el estudiante use pantalones dado que el estudiante es un niño. Esto se expresa como 1.
  • P ( T ) {\displaystyle P(T)} , o la probabilidad de que un estudiante (seleccionado al azar) use pantalones independientemente de cualquier otra información. Dado que (según la ley de probabilidad total ), esto es . P ( T ) = P ( T | G ) P ( G ) + P ( T | B ) P ( B ) {\displaystyle P(T)=P(T|G)P(G)+P(T|B)P(B)} P ( T ) = 0.5 × 0.4 + 1 × 0.6 = 0.8 {\displaystyle P(T)=0.5\times 0.4+1\times 0.6=0.8}

Dada toda esta información, la probabilidad posterior de que el observador haya visto a una niña dado que el estudiante observado lleva pantalones se puede calcular sustituyendo estos valores en la fórmula:

P ( G | T ) = P ( T | G ) P ( G ) P ( T ) = 0.5 × 0.4 0.8 = 0.25. {\displaystyle P(G|T)={\frac {P(T|G)P(G)}{P(T)}}={\frac {0.5\times 0.4}{0.8}}=0.25.}

Una forma intuitiva de resolver esto es suponer que la escuela tiene N estudiantes. Número de niños = 0,6N y número de niñas = 0,4N. Si N es suficientemente grande, el número total de usuarios de pantalones = 0,6N + 50% de 0,4N. Y el número de niñas que usan pantalones = 50% de 0,4N. Por lo tanto, en la población de pantalones, las niñas son (50% de 0,4N) / (0,6N + 50% de 0,4N) = 25%. En otras palabras, si separas el grupo de usuarios de pantalones, una cuarta parte de ese grupo serán niñas. Por lo tanto, si ves pantalones, lo máximo que puedes deducir es que estás viendo una sola muestra de un subconjunto de estudiantes donde el 25% son niñas. Y, por definición, la probabilidad de que este estudiante aleatorio sea una niña es del 25%. Todos los problemas del teorema de Bayes se pueden resolver de esta manera. [9]

Cálculo

La distribución de probabilidad posterior de una variable aleatoria dado el valor de otra se puede calcular con el teorema de Bayes multiplicando la distribución de probabilidad anterior por la función de verosimilitud y luego dividiéndola por la constante normalizadora , de la siguiente manera:

f X Y = y ( x ) = f X ( x ) L X Y = y ( x ) f X ( u ) L X Y = y ( u ) d u {\displaystyle f_{X\mid Y=y}(x)={f_{X}(x){\mathcal {L}}_{X\mid Y=y}(x) \over {\int _{-\infty }^{\infty }f_{X}(u){\mathcal {L}}_{X\mid Y=y}(u)\,du}}}

da la función de densidad de probabilidad posterior para una variable aleatoria dados los datos , donde X {\displaystyle X} Y = y {\displaystyle Y=y}

  • f X ( x ) {\displaystyle f_{X}(x)} es la densidad previa de , X {\displaystyle X}
  • L X Y = y ( x ) = f Y X = x ( y ) {\displaystyle {\mathcal {L}}_{X\mid Y=y}(x)=f_{Y\mid X=x}(y)} es la función de verosimilitud en función de , x {\displaystyle x}
  • f X ( u ) L X Y = y ( u ) d u {\displaystyle \int _{-\infty }^{\infty }f_{X}(u){\mathcal {L}}_{X\mid Y=y}(u)\,du} es la constante normalizadora, y
  • f X Y = y ( x ) {\displaystyle f_{X\mid Y=y}(x)} es la densidad posterior de los datos dados . [10] X {\displaystyle X} Y = y {\displaystyle Y=y}

Intervalo creíble

La probabilidad posterior es una probabilidad condicional condicionada a datos observados aleatoriamente. Por lo tanto, es una variable aleatoria. En el caso de una variable aleatoria, es importante resumir su grado de incertidumbre. Una forma de lograr este objetivo es proporcionar un intervalo creíble de la probabilidad posterior. [11]

Clasificación

En la clasificación , las probabilidades posteriores reflejan la incertidumbre de evaluar una observación a una clase particular, véase también probabilidades de pertenencia a una clase . Si bien los métodos de clasificación estadística generan por definición probabilidades posteriores, los aprendices automáticos suelen proporcionar valores de pertenencia que no inducen ninguna confianza probabilística. Es deseable transformar o reescalar los valores de pertenencia a probabilidades de pertenencia a una clase, ya que son comparables y, además, más fácilmente aplicables para el posprocesamiento. [12]

Véase también

Referencias

  1. ^ Lambert, Ben (2018). "El posterior: el objetivo de la inferencia bayesiana". Guía para estudiantes de estadística bayesiana . Sage. págs. 121–140. ISBN 978-1-4739-1636-4.
  2. ^ Grossman, Jason (2005). Inferencias a partir de observaciones para hipótesis estadísticas simples (tesis doctoral). Universidad de Sydney. hdl :2123/9107.
  3. ^ Etz, Alex (25 de julio de 2015). "Entender Bayes: actualización de valores a priori mediante la probabilidad". Los archivos Etz . Consultado el 18 de agosto de 2022 .
  4. ^ Gill, Jeff (2014). "Resumen de distribuciones posteriores con intervalos". Métodos bayesianos: un enfoque de las ciencias sociales y del comportamiento (tercera edición). Chapman & Hall. págs. 42–48. ISBN 978-1-4398-6248-3.
  5. ^ Press, S. James (1989). "Aproximaciones, métodos numéricos y programas informáticos". Estadística bayesiana: principios, modelos y aplicaciones . Nueva York: John Wiley & Sons. págs. 69-102. ISBN 0-471-63729-7.
  6. ^ Christopher M. Bishop (2006). Reconocimiento de patrones y aprendizaje automático . Springer. págs. 21-24. ISBN. 978-0-387-31073-2.
  7. ^ Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari y Donald B. Rubin (2014). Análisis de datos bayesianos . CRC Press. pág. 7. ISBN 978-1-4398-4095-5.{{cite book}}: CS1 maint: multiple names: authors list (link)
  8. ^ Ross, Kevin. Capítulo 8 Introducción a las distribuciones continuas previas y posteriores | Introducción al razonamiento y los métodos bayesianos.
  9. ^ "Teorema de Bayes - C o T ex T". sites.google.com . Consultado el 18 de agosto de 2022 .
  10. ^ "Probabilidad posterior - formulasearchengine". formulasearchengine.com . Consultado el 19 de agosto de 2022 .
  11. ^ Clyde, Merlise; Çetinkaya-Rundel, Mine; Rundel, Colin; Banks, David; Chai, Christine; Huang, Lizzy. Capítulo 1 Los fundamentos de la estadística bayesiana | Introducción al pensamiento bayesiano.
  12. ^ Boedeker, Peter; Kearns, Nathan T. (9 de julio de 2019). "Análisis discriminante lineal para la predicción de la pertenencia a un grupo: una introducción fácil de usar". Avances en métodos y prácticas en la ciencia psicológica . 2 (3): 250–263. doi :10.1177/2515245919849378. ISSN  2515-2459. S2CID  199007973.

Lectura adicional

  • Lancaster, Tony (2004). Introducción a la econometría bayesiana moderna . Oxford: Blackwell. ISBN 1-4051-1720-6.
  • Lee, Peter M. (2004). Estadística bayesiana: una introducción (3.ª ed.). Wiley . ISBN 0-340-81405-5.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Posterior_probability&oldid=1249176115"