Probabilidad previa

Distribución de una cantidad incierta

Una distribución de probabilidad previa de una cantidad incierta, a menudo llamada simplemente la distribución previa , es su distribución de probabilidad asumida antes de que se tome en cuenta cierta evidencia. Por ejemplo, la distribución previa podría ser la distribución de probabilidad que representa las proporciones relativas de votantes que votarán por un político en particular en una elección futura. La cantidad desconocida puede ser un parámetro del modelo o una variable latente en lugar de una variable observable .

En la estadística bayesiana , la regla de Bayes prescribe cómo actualizar la distribución a priori con nueva información para obtener la distribución de probabilidad a posteriori , que es la distribución condicional de la cantidad incierta dados los nuevos datos. Históricamente, la elección de las distribuciones a priori se limitaba a menudo a una familia conjugada de una función de probabilidad dada , ya que daría como resultado una distribución a posteriori manejable de la misma familia. Sin embargo, la amplia disponibilidad de los métodos de Monte Carlo de cadena de Markov ha hecho que esto sea una preocupación menor.

Existen muchas maneras de construir una distribución a priori. [1] En algunos casos, una distribución a priori puede determinarse a partir de información pasada, como experimentos previos. Una distribución a priori también puede obtenerse a partir de la evaluación puramente subjetiva de un experto experimentado. [2] [3] [4] Cuando no hay información disponible, se puede adoptar una distribución a priori no informativa justificada por el principio de indiferencia . [5] [6] En aplicaciones modernas, las distribuciones a priori también se eligen a menudo por sus propiedades mecánicas, como la regularización y la selección de características . [7] [8] [9]

Las distribuciones previas de los parámetros del modelo dependerán a menudo de sus propios parámetros. La incertidumbre acerca de estos hiperparámetros puede, a su vez, expresarse como distribuciones de probabilidad hiperprevias . Por ejemplo, si se utiliza una distribución beta para modelar la distribución del parámetro p de una distribución de Bernoulli , entonces:

  • p es un parámetro del sistema subyacente (distribución de Bernoulli), y
  • α y β son parámetros de la distribución previa (distribución beta); por lo tanto, son hiperparámetros .

En principio, los priores se pueden descomponer en muchos niveles condicionales de distribuciones, los llamados priores jerárquicos . [10]

Priores informativos

Una distribución previa informativa expresa información específica y definida sobre una variable. Un ejemplo es una distribución previa para la temperatura del mediodía de mañana. Un enfoque razonable es hacer que la distribución previa sea una distribución normal con un valor esperado igual a la temperatura del mediodía de hoy, con una varianza igual a la varianza diaria de la temperatura atmosférica, o una distribución de la temperatura para ese día del año.

Este ejemplo tiene una propiedad en común con muchas hipótesis previas, a saber, que la hipótesis posterior de un problema (la temperatura de hoy) se convierte en la hipótesis previa de otro problema (la temperatura de mañana); la evidencia preexistente que ya se ha tenido en cuenta forma parte de la hipótesis previa y, a medida que se acumula más evidencia, la hipótesis posterior está determinada en gran medida por la evidencia en lugar de por cualquier suposición original, siempre que la suposición original admitiera la posibilidad de lo que la evidencia sugiere. Los términos "previa" y "posterior" son generalmente relativos a un dato u observación específicos.

Fuerte anterior

Un prior fuerte es un supuesto, teoría, concepto o idea anterior sobre el cual, después de tener en cuenta nueva información, se funda un supuesto, teoría, concepto o idea actual. [ cita requerida ] Un prior fuerte es un tipo de prior informativo en el que la información contenida en la distribución previa domina la información contenida en los datos que se analizan. El análisis bayesiano combina la información contenida en el prior con la extraída de los datos para producir la distribución posterior que, en el caso de un "prior fuerte", cambiaría poco con respecto a la distribución previa.

Priores poco informativos

Una distribución previa débilmente informativa expresa información parcial sobre una variable, lo que dirige el análisis hacia soluciones que se alinean con el conocimiento existente sin restringir excesivamente los resultados y evitando estimaciones extremas. Un ejemplo es, al establecer la distribución previa para la temperatura al mediodía de mañana en St. Louis, utilizar una distribución normal con una media de 50 grados Fahrenheit y una desviación estándar de 40 grados, lo que restringe muy vagamente la temperatura al rango (10 grados, 90 grados) con una pequeña probabilidad de estar por debajo de -30 grados o por encima de 130 grados. El propósito de una distribución previa débilmente informativa es la regularización , es decir, mantener las inferencias en un rango razonable.

Priores no informativos

Una prior no informativa , plana o difusa expresa información vaga o general sobre una variable. [5] El término "previa no informativa" es un nombre un tanto inapropiado. Una prior de este tipo también podría denominarse prior poco informativa o prior objetiva , es decir, una que no se obtiene subjetivamente.

Los valores a priori no informativos pueden expresar información "objetiva", como "la variable es positiva" o "la variable es menor que un límite". La regla más simple y antigua para determinar un valor a priori no informativo es el principio de indiferencia , que asigna probabilidades iguales a todas las posibilidades. En los problemas de estimación de parámetros, el uso de un valor a priori no informativo generalmente produce resultados que no son demasiado diferentes del análisis estadístico convencional, ya que la función de verosimilitud a menudo proporciona más información que el valor a priori no informativo.

Se han hecho algunos intentos de encontrar probabilidades a priori , es decir, distribuciones de probabilidad en algún sentido requeridas lógicamente por la naturaleza del estado de incertidumbre de uno; estos son un tema de controversia filosófica, y los bayesianos se dividen aproximadamente en dos escuelas: "bayesianos objetivos", que creen que tales probabilidades previas existen en muchas situaciones útiles, y "bayesianos subjetivos" que creen que en la práctica las probabilidades previas generalmente representan juicios subjetivos de opinión que no se pueden justificar rigurosamente (Williamson 2010). Quizás los argumentos más sólidos a favor del bayesianismo objetivo fueron dados por Edwin T. Jaynes , basado principalmente en las consecuencias de las simetrías y en el principio de máxima entropía.

Como ejemplo de una a priori previa, debido a Jaynes (2003), considere una situación en la que uno sabe que una pelota ha sido escondida debajo de uno de tres vasos, A, B o C, pero no hay otra información disponible sobre su ubicación. En este caso, una a priori uniforme de p ( A ) = p ( B ) = p ( C ) = 1/3 parece intuitivamente como la única opción razonable. Más formalmente, podemos ver que el problema sigue siendo el mismo si intercambiamos las etiquetas ("A", "B" y "C") de los vasos. Por lo tanto, sería extraño elegir una a priori para la cual una permutación de las etiquetas causaría un cambio en nuestras predicciones sobre en qué vaso se encontrará la pelota; la a priori uniforme es la única que preserva esta invariancia. Si uno acepta este principio de invariancia, entonces puede ver que la a priori uniforme es la a priori lógicamente correcta para representar este estado de conocimiento. Esta probabilidad previa es "objetiva" en el sentido de ser la elección correcta para representar un estado particular de conocimiento, pero no es objetiva en el sentido de ser una característica del mundo independiente del observador: en realidad, la pelota existe debajo de un vaso particular, y sólo tiene sentido hablar de probabilidades en esta situación si hay un observador con conocimiento limitado sobre el sistema. [11]

Como ejemplo más polémico, Jaynes publicó un argumento basado en la invariancia de la anterior bajo un cambio de parámetros que sugiere que la anterior que representa la incertidumbre completa sobre una probabilidad debería ser la anterior de Haldane p −1 (1 −  p ) −1 . [12] El ejemplo que da Jaynes es el de encontrar una sustancia química en un laboratorio y preguntar si se disolverá en agua en experimentos repetidos. La anterior de Haldane [13] da con diferencia el mayor peso a y , lo que indica que la muestra se disolverá cada vez o nunca se disolverá, con igual probabilidad. Sin embargo, si uno ha observado que las muestras de la sustancia química se disuelven en un experimento y no se disuelven en otro experimento, entonces esta anterior se actualiza a la distribución uniforme en el intervalo [0, 1]. Esto se obtiene aplicando el teorema de Bayes al conjunto de datos que consta de una observación de disolución y otra de no disolución, utilizando la anterior anterior. La anterior de Haldane es una distribución anterior impropia (lo que significa que tiene una masa infinita). Harold Jeffreys ideó una forma sistemática de diseñar priores no informativos, como por ejemplo, el prior de Jeffreys p −1/2 (1 −  p ) −1/2 para la variable aleatoria de Bernoulli. p = 0 {\displaystyle p=0} p = 1 {\displaystyle p=1}

Se pueden construir valores a priori que sean proporcionales a la medida de Haar si el espacio de parámetros X tiene una estructura de grupo natural que deja invariante nuestro estado bayesiano de conocimiento. [12] Esto puede verse como una generalización del principio de invariancia utilizado para justificar el valor a priori uniforme sobre las tres tazas en el ejemplo anterior. Por ejemplo, en física podríamos esperar que un experimento dé los mismos resultados independientemente de nuestra elección del origen de un sistema de coordenadas. Esto induce la estructura de grupo del grupo de traslación en X , que determina la probabilidad a priori como un valor a priori impropio constante . De manera similar, algunas mediciones son naturalmente invariantes a la elección de una escala arbitraria (por ejemplo, ya sea que se utilicen centímetros o pulgadas, los resultados físicos deberían ser iguales). En tal caso, el grupo de escala es la estructura de grupo natural, y el valor a priori correspondiente en X es proporcional a 1/ x . A veces importa si utilizamos la medida de Haar invariante por la izquierda o por la derecha. Por ejemplo, las medidas de Haar invariantes por la izquierda y por la derecha en el grupo afín no son iguales. Berger (1985, p. 413) sostiene que la medida de Haar invariante a la derecha es la elección correcta.

Otra idea, defendida por Edwin T. Jaynes , es utilizar el principio de máxima entropía (MAXENT). La motivación es que la entropía de Shannon de una distribución de probabilidad mide la cantidad de información contenida en la distribución. Cuanto mayor sea la entropía, menos información proporciona la distribución. Por lo tanto, al maximizar la entropía sobre un conjunto adecuado de distribuciones de probabilidad en X , se encuentra la distribución que es menos informativa en el sentido de que contiene la menor cantidad de información consistente con las restricciones que definen el conjunto. Por ejemplo, la entropía máxima previa en un espacio discreto, dado solo que la probabilidad está normalizada a 1, es la previa que asigna la misma probabilidad a cada estado. Y en el caso continuo, la entropía máxima previa dado que la densidad está normalizada con media cero y varianza unitaria es la distribución normal estándar . El principio de entropía cruzada mínima generaliza MAXENT al caso de "actualizar" una distribución previa arbitraria con restricciones adecuadas en el sentido de máxima entropía.

Una idea relacionada, los valores a priori de referencia, fue introducida por José-Miguel Bernardo . Aquí, la idea es maximizar la divergencia de Kullback-Leibler esperada de la distribución posterior en relación con el valor a priori. Esto maximiza la información a posteriori esperada sobre X cuando la densidad a priori es p ( x ); por lo tanto, en cierto sentido, p ( x ) es el valor a priori "menos informativo" sobre X. El valor a priori de referencia se define en el límite asintótico, es decir, se considera el límite de los valores a priori así obtenidos a medida que el número de puntos de datos tiende a infinito. En el presente caso, la divergencia KL entre las distribuciones a priori y posterior está dada por K L = p ( t ) p ( x t ) log p ( x t ) p ( x ) d x d t {\displaystyle KL=\int p(t)\int p(x\mid t)\log {\frac {p(x\mid t)}{p(x)}}\,dx\,dt}

Aquí, hay una estadística suficiente para algún parámetro . La integral interna es la divergencia KL entre las distribuciones posterior y anterior y el resultado es la media ponderada sobre todos los valores de . Dividiendo el logaritmo en dos partes, invirtiendo el orden de las integrales en la segunda parte y notando que no depende de se obtienen t {\displaystyle t} x {\displaystyle x} p ( x t ) {\displaystyle p(x\mid t)} p ( x ) {\displaystyle p(x)} t {\displaystyle t} log [ p ( x ) ] {\displaystyle \log \,[p(x)]} t {\displaystyle t} K L = p ( t ) p ( x t ) log [ p ( x t ) ] d x d t log [ p ( x ) ] p ( t ) p ( x t ) d t d x {\displaystyle KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int \log[p(x)]\,\int p(t)p(x\mid t)\,dt\,dx}

La integral interna de la segunda parte es la integral sobre la densidad conjunta . Esta es la distribución marginal , por lo que tenemos t {\displaystyle t} p ( x , t ) {\displaystyle p(x,t)} p ( x ) {\displaystyle p(x)} K L = p ( t ) p ( x t ) log [ p ( x t ) ] d x d t p ( x ) log [ p ( x ) ] d x {\displaystyle KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int p(x)\log[p(x)]\,dx}

Ahora usamos el concepto de entropía que, en el caso de distribuciones de probabilidad, es el valor esperado negativo del logaritmo de la función de masa o densidad de probabilidad o Usando esto en la última ecuación obtenemos H ( x ) = p ( x ) log [ p ( x ) ] d x . {\textstyle H(x)=-\int p(x)\log[p(x)]\,dx.} K L = p ( t ) H ( x t ) d t + H ( x ) {\displaystyle KL=-\int p(t)H(x\mid t)\,dt+\,H(x)}

En palabras, KL es el valor esperado negativo sobre la entropía de condicional a más la entropía marginal (es decir, incondicional) de . En el caso límite donde el tamaño de la muestra tiende a infinito, el teorema de Bernstein-von Mises establece que la distribución de condicional a un valor observado dado de es normal con una varianza igual al recíproco de la información de Fisher en el valor "verdadero" de . La entropía de una función de densidad normal es igual a la mitad del logaritmo de donde es la varianza de la distribución. En este caso, por lo tanto, donde es el tamaño de muestra arbitrariamente grande (al que la información de Fisher es proporcional) y es el valor "verdadero". Dado que esto no depende de se puede sacar de la integral, y como esta integral es sobre un espacio de probabilidad es igual a uno. Por lo tanto, podemos escribir la forma asintótica de KL como donde es proporcional al tamaño de muestra (asintóticamente grande). No conocemos el valor de . De hecho, la idea misma va en contra de la filosofía de la inferencia bayesiana en la que los valores "verdaderos" de los parámetros se reemplazan por distribuciones previas y posteriores. Por lo tanto, eliminamos reemplazándolo por y tomando el valor esperado de la entropía normal, que obtenemos al multiplicar por e integrar sobre . Esto nos permite combinar los logaritmos y obtener t {\displaystyle t} x {\displaystyle x} t {\displaystyle t} x {\displaystyle x} x {\displaystyle x} t {\displaystyle t} x {\displaystyle x} 2 π e v {\displaystyle 2\pi ev} v {\displaystyle v} H = log 2 π e N I ( x ) {\displaystyle H=\log {\sqrt {\frac {2\pi e}{NI(x^{*})}}}} N {\displaystyle N} x {\displaystyle x*} t {\displaystyle t} K L = log ( 1 k I ( x ) ) p ( x ) log [ p ( x ) ] d x {\displaystyle KL=-\log \left(1{\sqrt {kI(x^{*})}}\right)-\,\int p(x)\log[p(x)]\,dx} k {\displaystyle k} x {\displaystyle x*} x {\displaystyle x*} x {\displaystyle x} p ( x ) {\displaystyle p(x)} x {\displaystyle x} K L = p ( x ) log [ p ( x ) k I ( x ) ] d x {\displaystyle KL=-\int p(x)\log \left[{\frac {p(x)}{\sqrt {kI(x)}}}\right]\,dx}

Esta es una divergencia cuasi-KL ("cuasi" en el sentido de que la raíz cuadrada de la información de Fisher puede ser el núcleo de una distribución impropia). Debido al signo menos, necesitamos minimizar esto para maximizar la divergencia KL con la que comenzamos. El valor mínimo de la última ecuación ocurre cuando las dos distribuciones en el argumento logarítmico, impropias o no, no divergen. Esto a su vez ocurre cuando la distribución a priori es proporcional a la raíz cuadrada de la información de Fisher de la función de verosimilitud. Por lo tanto, en el caso de un solo parámetro, las distribuciones a priori de referencia y las distribuciones a priori de Jeffreys son idénticas, aunque Jeffreys tiene un razonamiento muy diferente.

Los priores de referencia son a menudo el prior objetivo de elección en problemas multivariados, ya que otras reglas (por ejemplo, la regla de Jeffreys ) pueden dar lugar a priores con un comportamiento problemático. [ aclaración necesaria ¿ Un prior de Jeffreys está relacionado con la divergencia de KL? ]

Las distribuciones previas objetivas también pueden derivarse de otros principios, como la teoría de la información o la codificación (véase, por ejemplo, la longitud mínima de descripción ) o las estadísticas frecuentistas (los llamados valores a priori de coincidencia de probabilidad). [14] Dichos métodos se utilizan en la teoría de la inferencia inductiva de Solomonoff . La construcción de valores a priori objetivos se ha introducido recientemente en bioinformática, y especialmente en la inferencia en biología de sistemas del cáncer, donde el tamaño de la muestra es limitado y hay una gran cantidad de conocimiento previo disponible. En estos métodos, se utiliza un criterio basado en la teoría de la información, como la divergencia KL o la función de log-verosimilitud para problemas de aprendizaje supervisado binario [15] y problemas de modelos mixtos. [16]

Los problemas filosóficos asociados con los valores a priori no informativos están asociados con la elección de una métrica o escala de medición apropiada. Supongamos que queremos un valor a priori para la velocidad de carrera de un corredor que no conocemos. Podríamos especificar, por ejemplo, una distribución normal como valor a priori para su velocidad, pero alternativamente podríamos especificar un valor a priori normal para el tiempo que tarda en completar 100 metros, que es proporcional al recíproco del primer valor a priori. Se trata de valores a priori muy diferentes, pero no está claro cuál es el preferible. El método de grupos de transformación de Jaynes puede responder a esta pregunta en algunas situaciones. [17]

De manera similar, si se nos pide que estimemos una proporción desconocida entre 0 y 1, podríamos decir que todas las proporciones son igualmente probables y utilizar una probabilidad previa uniforme. Alternativamente, podríamos decir que todos los órdenes de magnitud de la proporción son igualmente probables,a priori logarítmico , que es el a priori uniforme del logaritmo de la proporción. Ela priori de Jeffreysintenta resolver este problema calculando un a priori que exprese la misma creencia sin importar qué métrica se utilice. El a priori de Jeffreys para una proporción desconocidapesp−1/2(1 − p)−1/2, que difiere de la recomendación de Jaynes.

Los antecedentes basados ​​en nociones de probabilidad algorítmica se utilizan en la inferencia inductiva como base para la inducción en entornos muy generales.

Los problemas prácticos asociados con los priores no informativos incluyen el requisito de que la distribución posterior sea adecuada. Los priores no informativos habituales sobre variables continuas e ilimitadas son inadecuados. Esto no tiene por qué ser un problema si la distribución posterior es adecuada. Otro problema de importancia es que si se va a utilizar un prior no informativo de forma rutinaria , es decir, con muchos conjuntos de datos diferentes, debería tener buenas propiedades frecuentistas . Normalmente, un bayesiano no se preocuparía por estos problemas, pero puede ser importante en esta situación. Por ejemplo, uno querría que cualquier regla de decisión basada en la distribución posterior fuera admisible bajo la función de pérdida adoptada. Desafortunadamente, la admisibilidad suele ser difícil de comprobar, aunque se conocen algunos resultados (p. ej., Berger y Strawderman 1996). El problema es particularmente agudo con los modelos bayesianos jerárquicos ; los priores habituales (p. ej., el prior de Jeffreys) pueden dar reglas de decisión muy inadmisibles si se emplean en los niveles superiores de la jerarquía.

Priores impropios

Sean los eventos mutuamente excluyentes y exhaustivos. Si el teorema de Bayes se escribe como entonces es claro que se obtendría el mismo resultado si todas las probabilidades previas P ( A i ) y P ( A j ) se multiplicaran por una constante dada; lo mismo sería cierto para una variable aleatoria continua . Si la suma en el denominador converge, las probabilidades posteriores seguirán sumando (o integrando) a 1 incluso si los valores previos no lo hacen, y por lo tanto los valores previos pueden necesitar solamente ser especificados en la proporción correcta. Llevando esta idea más allá, en muchos casos la suma o integral de los valores previos puede incluso no necesitar ser finita para obtener respuestas sensatas para las probabilidades posteriores. Cuando este es el caso, el previo se llama previo impropio . Sin embargo, la distribución posterior no necesita ser una distribución apropiada si el previo es impropio. [18] Esto es claro a partir del caso donde el evento B es independiente de todos los A j . A 1 , A 2 , , A n {\displaystyle A_{1},A_{2},\ldots ,A_{n}} P ( A i B ) = P ( B A i ) P ( A i ) j P ( B A j ) P ( A j ) , {\displaystyle P(A_{i}\mid B)={\frac {P(B\mid A_{i})P(A_{i})}{\sum _{j}P(B\mid A_{j})P(A_{j})}}\,,}

Los estadísticos a veces utilizan valores a priori impropios como valores a priori no informativos . [19] Por ejemplo, si necesitan una distribución a priori para la media y la varianza de una variable aleatoria, pueden suponer que p ( mv ) ~ 1/ v (para v  > 0) lo que sugeriría que cualquier valor para la media es "igualmente probable" y que un valor para la varianza positiva se vuelve "menos probable" en proporción inversa a su valor. Muchos autores (Lindley, 1973; De Groot, 1937; Kass y Wasserman, 1996) [ cita requerida ] advierten contra el peligro de sobreinterpretar esos valores a priori, ya que no son densidades de probabilidad. La única relevancia que tienen se encuentra en el posterior correspondiente, siempre que esté bien definido para todas las observaciones. (El valor a priori de Haldane es un contraejemplo típico. [ aclaración necesaria ] [ cita requerida ] )

Por el contrario, las funciones de verosimilitud no necesitan ser integradas, y una función de verosimilitud que sea uniformemente 1 corresponde a la ausencia de datos (todos los modelos son igualmente probables, dado que no hay datos): la regla de Bayes multiplica una distribución de probabilidad previa por la verosimilitud, y un producto vacío es simplemente la verosimilitud constante 1. Sin embargo, sin comenzar con una distribución de probabilidad previa, uno no termina de obtener una distribución de probabilidad posterior y, por lo tanto, no se pueden integrar ni calcular valores esperados o pérdidas. Consulte Función de verosimilitud § No integrabilidad para obtener más detalles.

Ejemplos

Algunos ejemplos de valores anteriores impropios incluyen:

Estas funciones, interpretadas como distribuciones uniformes, también pueden interpretarse como la función de verosimilitud en ausencia de datos, pero no son valores anteriores adecuados.

Probabilidad previa en mecánica estadística

Mientras que en la estadística bayesiana la probabilidad previa se utiliza para representar creencias iniciales sobre un parámetro incierto, en la mecánica estadística la probabilidad a priori se utiliza para describir el estado inicial de un sistema. [20] La versión clásica se define como la relación entre el número de eventos elementales (por ejemplo, el número de veces que se lanza un dado) y el número total de eventos, y estos se consideran de manera puramente deductiva, es decir, sin ningún experimento. En el caso del dado, si lo miramos sobre la mesa sin lanzarlo, se razona deductivamente que cada evento elemental tiene la misma probabilidad; por lo tanto, la probabilidad de cada resultado de un lanzamiento imaginario del dado (perfecto) o simplemente contando el número de caras es 1/6. Cada cara del dado aparece con la misma probabilidad, siendo la probabilidad una medida definida para cada evento elemental. El resultado es diferente si lanzamos el dado veinte veces y preguntamos cuántas veces (de 20) aparece el número 6 en la cara superior. En este caso entra en juego el tiempo y tenemos un tipo de probabilidad diferente en función del tiempo o del número de veces que se lanza el dado. Por otro lado, la probabilidad a priori es independiente del tiempo: puedes mirar el dado sobre la mesa todo el tiempo que quieras sin tocarlo y deduces que la probabilidad de que aparezca el número 6 en la cara superior es 1/6.

En mecánica estadística, por ejemplo la de un gas contenido en un volumen finito , tanto las coordenadas espaciales como las coordenadas de momento de los elementos individuales del gas (átomos o moléculas) son finitas en el espacio de fase abarcado por estas coordenadas. En analogía con el caso del dado, la probabilidad a priori es aquí (en el caso de un continuo) proporcional al elemento de volumen del espacio de fase dividido por , y es el número de ondas estacionarias (es decir, estados) en el mismo, donde es el rango de la variable y es el rango de la variable (aquí para simplificar considerada en una dimensión). En 1 dimensión (longitud ) este número o peso estadístico o ponderación a priori es . En 3 dimensiones habituales (volumen ) el número correspondiente puede calcularse como . [21] Para entender esta cantidad como la que da un número de estados en mecánica cuántica (es decir, ondulatoria), recuerde que en mecánica cuántica cada partícula está asociada con una onda de materia que es la solución de una ecuación de Schrödinger. En el caso de partículas libres (de energía ) como las de un gas en una caja de volumen, dicha onda de materia es explícitamente donde son números enteros. El número de valores diferentes y, por lo tanto, de estados en la región entre ellos se encuentra entonces como la expresión anterior considerando el área cubierta por estos puntos. Además, en vista de la relación de incertidumbre , que en 1 dimensión espacial es estos estados son indistinguibles (es decir, estos estados no llevan etiquetas). Una consecuencia importante es un resultado conocido como el teorema de Liouville , es decir, la independencia temporal de este elemento de volumen del espacio de fases y, por lo tanto, de la probabilidad a priori. Una dependencia temporal de esta cantidad implicaría información conocida sobre la dinámica del sistema y, por lo tanto, no sería una probabilidad a priori. [22] Por lo tanto, la región cuando se diferencia con respecto al tiempo produce cero (con la ayuda de las ecuaciones de Hamilton): El volumen en el momento es el mismo que en el momento cero. Uno también describe esto como conservación de la información. V {\displaystyle V} q i {\displaystyle q_{i}} p i {\displaystyle p_{i}} Δ q Δ p {\displaystyle \Delta q\Delta p} h {\displaystyle h} Δ q {\displaystyle \Delta q} q {\displaystyle q} Δ p {\displaystyle \Delta p} p {\displaystyle p} L {\displaystyle L} L Δ p / h {\displaystyle L\Delta p/h} V {\displaystyle V} V 4 π p 2 Δ p / h 3 {\displaystyle V4\pi p^{2}\Delta p/h^{3}} ϵ = p 2 / 2 m {\displaystyle \epsilon ={\bf {p}}^{2}/2m} V = L 3 {\displaystyle V=L^{3}} ψ sin ( l π x / L ) sin ( m π y / L ) sin ( n π z / L ) , {\displaystyle \psi \propto \sin(l\pi x/L)\sin(m\pi y/L)\sin(n\pi z/L),} l , m , n {\displaystyle l,m,n} ( l , m , n ) {\displaystyle (l,m,n)} p , p + d p , p 2 = p 2 , {\displaystyle p,p+dp,p^{2}={\bf {p}}^{2},} V 4 π p 2 d p / h 3 {\displaystyle V4\pi p^{2}dp/h^{3}} Δ q Δ p h , {\displaystyle \Delta q\Delta p\geq h,} Ω := Δ q Δ p Δ q Δ p , Δ q Δ p = c o n s t . , {\displaystyle \Omega :={\frac {\Delta q\Delta p}{\int \Delta q\Delta p}},\;\;\;\int \Delta q\Delta p=\mathrm {const.} ,} t {\displaystyle t} t {\displaystyle t}

En la teoría cuántica completa se tiene una ley de conservación análoga. En este caso, la región del espacio de fases se reemplaza por un subespacio del espacio de estados expresado en términos de un operador de proyección , y en lugar de la probabilidad en el espacio de fases, se tiene la densidad de probabilidad donde es la dimensionalidad del subespacio. La ley de conservación en este caso se expresa por la unitaridad de la matriz S . En cualquier caso, las consideraciones suponen un sistema cerrado y aislado. Este sistema cerrado y aislado es un sistema con (1) una energía fija y (2) un número fijo de partículas en (c) un estado de equilibrio. Si se considera un gran número de réplicas de este sistema, se obtiene lo que se llama un conjunto microcanónico . Es para este sistema que se postula en estadística cuántica el "postulado fundamental de probabilidades iguales a priori de un sistema aislado". Esto dice que el sistema aislado en equilibrio ocupa cada uno de sus estados accesibles con la misma probabilidad. Este postulado fundamental permite pues equiparar la probabilidad a priori a la degeneración de un sistema, es decir, al número de estados diferentes con la misma energía. P {\displaystyle P} Σ := P Tr ( P ) , N = Tr ( P ) = c o n s t . , {\displaystyle \Sigma :={\frac {P}{{\text{Tr}}(P)}},\;\;\;N={\text{Tr}}(P)=\mathrm {const.} ,} N {\displaystyle N} E {\displaystyle E} N {\displaystyle N}

Ejemplo

El siguiente ejemplo ilustra la probabilidad a priori (o ponderación a priori) en contextos (a) clásicos y (b) cuánticos.

  1. Probabilidad clásica a priori

    Considere la energía rotacional E de una molécula diatómica con momento de inercia I en coordenadas polares esféricas (esto significa que arriba está aquí ), es decir, la curva para E constante y es una elipse de área. Al integrar sobre y el volumen total del espacio de fase cubierto para energía constante E es y, por lo tanto, la ponderación clásica a priori en el rango de energía es θ , ϕ {\displaystyle \theta ,\phi } q {\displaystyle q} θ , ϕ {\displaystyle \theta ,\phi } E = 1 2 I ( p θ 2 + p ϕ 2 sin 2 θ ) . {\displaystyle E={\frac {1}{2I}}\left(p_{\theta }^{2}+{\frac {p_{\phi }^{2}}{\sin ^{2}\theta }}\right).} ( p θ , p ϕ ) {\displaystyle (p_{\theta },p_{\phi })} θ {\displaystyle \theta } d p θ d p ϕ = π 2 I E 2 I E sin θ = 2 π I E sin θ . {\displaystyle \oint dp_{\theta }dp_{\phi }=\pi {\sqrt {2IE}}{\sqrt {2IE}}\sin \theta =2\pi IE\sin \theta .} θ {\displaystyle \theta } ϕ {\displaystyle \phi } 0 ϕ = 2 π 0 θ = π 2 I π E sin θ d θ d ϕ = 8 π 2 I E = d p θ d p ϕ d θ d ϕ , {\displaystyle \int _{0}^{\phi =2\pi }\int _{0}^{\theta =\pi }2I\pi E\sin \theta d\theta d\phi =8\pi ^{2}IE=\oint dp_{\theta }dp_{\phi }d\theta d\phi ,} d E {\displaystyle dE}

    Ω {\displaystyle \Omega \propto } (volumen del espacio de fase en ) menos (volumen del espacio de fase en ) se da por E + d E {\displaystyle E+dE} E {\displaystyle E} 8 π 2 I d E . {\displaystyle 8{\pi }^{2}IdE.}
  2. Probabilidad cuántica a priori

    Suponiendo que el número de estados cuánticos en un rango para cada dirección de movimiento está dado, por elemento, por un factor , el número de estados en el rango de energía dE es, como se ve en (a) para la molécula diatómica rotatoria. De la mecánica ondulatoria se sabe que los niveles de energía de una molécula diatómica rotatoria están dados por cada uno de esos niveles siendo (2n+1) veces degenerado. Al evaluar se obtiene Por lo tanto, por comparación con lo anterior, se encuentra que el número aproximado de estados en el rango dE está dado por la degeneración, es decir Por lo tanto, la ponderación a priori en el contexto clásico (a) corresponde a la ponderación a priori aquí en el contexto cuántico (b). En el caso del oscilador armónico simple unidimensional de frecuencia natural se encuentra correspondientemente: (a) , y (b) (sin degeneración). Por lo tanto, en la mecánica cuántica, la probabilidad a priori es efectivamente una medida de la degeneración , es decir, el número de estados que tienen la misma energía. Δ q Δ p {\displaystyle \Delta q\Delta p} Δ q Δ p / h {\displaystyle \Delta q\Delta p/h} 8 π 2 I d E / h 2 {\displaystyle 8\pi ^{2}IdE/h^{2}} E n = n ( n + 1 ) h 2 8 π 2 I , {\displaystyle E_{n}={\frac {n(n+1)h^{2}}{8\pi ^{2}I}},} d n / d E n = 1 / ( d E n / d n ) {\displaystyle dn/dE_{n}=1/(dE_{n}/dn)} d n d E n = 8 π 2 I ( 2 n + 1 ) h 2 , ( 2 n + 1 ) d n = 8 π 2 I h 2 d E n . {\displaystyle {\frac {dn}{dE_{n}}}={\frac {8\pi ^{2}I}{(2n+1)h^{2}}},\;\;\;(2n+1)dn={\frac {8\pi ^{2}I}{h^{2}}}dE_{n}.} Ω {\displaystyle \Omega } Σ ( 2 n + 1 ) d n . {\displaystyle \Sigma \propto (2n+1)dn.} ν {\displaystyle \nu } Ω d E / ν {\displaystyle \Omega \propto dE/\nu } Σ d n {\displaystyle \Sigma \propto dn}

    En el caso del átomo de hidrógeno o del potencial de Coulomb (donde la evaluación del volumen del espacio de fases para energía constante es más complicada) se sabe que la degeneración mecánica cuántica es con . Por lo tanto, en este caso . n 2 {\displaystyle n^{2}} E 1 / n 2 {\displaystyle E\propto 1/n^{2}} Σ n 2 d n {\displaystyle \Sigma \propto n^{2}dn}

Funciones de distribución y probabilidad a priori

En mecánica estadística (ver cualquier libro) se derivan las llamadas funciones de distribución para varias estadísticas. En el caso de la estadística de Fermi-Dirac y la estadística de Bose-Einstein estas funciones son respectivamente Estas funciones se derivan para (1) un sistema en equilibrio dinámico (es decir, bajo condiciones estacionarias y uniformes) con (2) número total (y enorme) de partículas (esta condición determina la constante ), y (3) energía total , es decir, con cada una de las partículas teniendo la energía . Un aspecto importante en la derivación es tener en cuenta la indistinguibilidad de partículas y estados en la estadística cuántica, es decir, allí partículas y estados no tienen etiquetas. En el caso de los fermiones, como los electrones, que obedecen al principio de Pauli (solo una partícula por estado o ninguna permitida), uno tiene por lo tanto Por lo tanto, es una medida de la fracción de estados realmente ocupados por electrones a energía y temperatura . Por otro lado, la probabilidad a priori es una medida del número de estados mecánicos de ondas disponibles. Por lo tanto, como es constante en condiciones uniformes (tantas partículas como fluyen fuera de un elemento de volumen también fluyen dentro de manera constante, de modo que la situación en el elemento parece estática), es decir, independiente del tiempo , y también es independiente del tiempo como se mostró anteriormente, obtenemos Expresando esta ecuación en términos de sus derivadas parciales, se obtiene la ecuación de transporte de Boltzmann . ¿Cómo aparecen aquí de repente las coordenadas, etc.? Anteriormente no se hizo mención de campos eléctricos u otros. Por lo tanto, sin tales campos presentes, tenemos la distribución de Fermi-Dirac como se mencionó anteriormente. Pero con tales campos presentes tenemos esta dependencia adicional de . f {\displaystyle f} f i F D = 1 e ( ϵ i ϵ 0 ) / k T + 1 , f i B E = 1 e ( ϵ i ϵ 0 ) / k T 1 . {\displaystyle f_{i}^{FD}={\frac {1}{e^{(\epsilon _{i}-\epsilon _{0})/kT}+1}},\quad f_{i}^{BE}={\frac {1}{e^{(\epsilon _{i}-\epsilon _{0})/kT}-1}}.} N = Σ i n i {\displaystyle N=\Sigma _{i}n_{i}} ϵ 0 {\displaystyle \epsilon _{0}} E = Σ i n i ϵ i {\displaystyle E=\Sigma _{i}n_{i}\epsilon _{i}} n i {\displaystyle n_{i}} ϵ i {\displaystyle \epsilon _{i}} 0 f i F D 1 , whereas 0 f i B E . {\displaystyle 0\leq f_{i}^{FD}\leq 1,\quad {\text{whereas}}\quad 0\leq f_{i}^{BE}\leq \infty .} f i F D {\displaystyle f_{i}^{FD}} ϵ i {\displaystyle \epsilon _{i}} T {\displaystyle T} g i {\displaystyle g_{i}} n i = f i g i . {\displaystyle n_{i}=f_{i}g_{i}.} n i {\displaystyle n_{i}} t {\displaystyle t} g i {\displaystyle g_{i}} t {\displaystyle t} d f i d t = 0 , f i = f i ( t , v i , r i ) . {\displaystyle {\frac {df_{i}}{dt}}=0,\quad f_{i}=f_{i}(t,{\bf {v}}_{i},{\bf {r}}_{i}).} r {\displaystyle {\bf {r}}} f {\displaystyle f}

Véase también

Notas

  1. ^ Robert, Christian (1994). "De la información previa a las distribuciones previas". La elección bayesiana . Nueva York: Springer. pp. 89–136. ISBN 0-387-94296-3.
  2. ^ Chaloner, Kathryn (1996). "Obtención de distribuciones previas". En Berry, Donald A.; Stangl, Dalene (eds.). Bayesian Biostatistics . Nueva York: Marcel Dekker. págs. 141–156. ISBN 0-8247-9334-X.
  3. ^ Mikkola, Petrus; et al. (2023). "Obtención de conocimientos previos: pasado, presente y futuro". Análisis bayesiano . Próximamente. doi :10.1214/23-BA1381. hdl : 11336/183197 . S2CID  : 244798734.
  4. ^ Icazatti, Alejandro; Abril-Pla, Oriol; Klami, Arto; Martin, Osvaldo A. (septiembre de 2023). "PreliZ: una caja de herramientas para la obtención de resultados previos". Journal of Open Source Software . doi : 10.21105/joss.05499 .
  5. ^ ab Zellner, Arnold (1971). "Distribuciones previas para representar 'saber poco'"". Introducción a la inferencia bayesiana en econometría . Nueva York: John Wiley & Sons. pp. 41–53. ISBN 0-471-98165-6.
  6. ^ Price, Harold J.; Manson, Allison R. (2001). "Prioridades no informativas para el teorema de Bayes". AIP Conf. Proc . 617 : 379–391. doi :10.1063/1.1477060.
  7. ^ Piironen, Juho; Vehtari, Aki (2017). "Información de escasez y regularización en la herradura y otros priores de contracción". Revista Electrónica de Estadística . 11 (2): 5018–5051. arXiv : 1707.01694 . doi : 10.1214/17-EJS1337SI .
  8. ^ Simpson, Daniel; et al. (2017). "Penalización de la complejidad de los componentes del modelo: un enfoque práctico y basado en principios para la construcción de valores a priori". Ciencia estadística . 32 (1): 1–28. arXiv : 1403.4630 . doi :10.1214/16-STS576. S2CID  88513041.
  9. ^ Fortuin, Vincent (2022). "Priores en el aprendizaje profundo bayesiano: una revisión". Revista estadística internacional . 90 (3): 563–591. doi :10.1111/insr.12502. hdl : 20.500.11850/547969 . S2CID  234681651.
  10. ^ Congdon, Peter D. (2020). "Técnicas de regresión utilizando valores jerárquicos previos". Modelos jerárquicos bayesianos (2.ª ed.). Boca Raton: CRC Press. págs. 253–315. ISBN 978-1-03-217715-1.
  11. ^ Florens, Jean-Pierre; Mouchart, Michael; Rolin, Jean-Marie (1990). "Argumentos de invariancia en las estadísticas bayesianas". Toma de decisiones económicas: juegos, econometría y optimización . Holanda Septentrional. págs. 351–367. ISBN 0-444-88422-X.
  12. ^ ab Jaynes, Edwin T. (septiembre de 1968). "Probabilidades previas" (PDF) . IEEE Transactions on Systems Science and Cybernetics . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
  13. ^ Esta probabilidad previa fue propuesta por JBS Haldane en "A note on inverse probability", Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, doi :10.1017/S0305004100010495. Véase también J. Haldane, "The precision of observational values ​​of small frequencies", Biometrika, 35:297–300, 1948, doi :10.2307/2332350, JSTOR  2332350.
  14. ^ Datta, Gauri Sankar; Mukerjee, Rahul (2004). Probabilidad de emparejamiento de valores a priori: asintótica de orden superior . Springer. ISBN 978-0-387-20329-4.
  15. ^ Esfahani, MS; Dougherty, ER (2014). "Incorporación del conocimiento de las vías biológicas en la construcción de valores previos para la clasificación bayesiana óptima - Revistas y revistas IEEE". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 11 (1): 202–18. doi :10.1109/TCBB.2013.143. PMID  26355519. S2CID  10096507.
  16. ^ Boluki, Shahin; Esfahani, Mohammad Shahrokh; Qian, Xiaoning; Dougherty, Edward R (diciembre de 2017). "Incorporación de conocimientos biológicos previos para el aprendizaje bayesiano a través de datos previos de información basados ​​en el conocimiento máximo". BMC Bioinformatics . 18 (S14): 552. doi : 10.1186/s12859-017-1893-4 . ISSN  1471-2105. PMC 5751802 . PMID  29297278. 
  17. ^ Jaynes (1968), págs. 17, véase también Jaynes (2003), capítulo 12. Tenga en cuenta que el capítulo 12 no está disponible en la preimpresión en línea, pero se puede obtener una vista previa a través de Google Books.
  18. ^ Dawid, AP; Stone, M.; Zidek, JV (1973). "Paradojas de marginalización en inferencia bayesiana y estructural". Revista de la Royal Statistical Society . Serie B (Metodológica). 35 (2): 189–233. JSTOR  2984907.
  19. ^ Christensen, Ronald; Johnson, Wesley; Branscum, Adam; Hanson, Timothy E. (2010). Ideas bayesianas y análisis de datos: una introducción para científicos y estadísticos . Hoboken: CRC Press. pág. 69. ISBN 9781439894798.
  20. ^ Iba, Y. (1989). "Estadística bayesiana y mecánica estadística". En Takayama, H. (ed.). Dinámica cooperativa en sistemas físicos complejos . Springer Series in Synergetics. Vol. 43. Berlín: Springer. págs. 235-236. doi :10.1007/978-3-642-74554-6_60. ISBN . 978-3-642-74556-0.
  21. ^ Müller-Kirsten, HJW (2013). Fundamentos de física estadística (2.ª ed.). Singapur: World Scientific. Capítulo 6.
  22. ^ Ben-Naim, A. (2007). Entropía desmitificada . Singapur: World Scientific.

Referencias

  • Bauwens, Luc; Lubrano, Michel; Richard, Jean-François (1999). "Densidades previas para el modelo de regresión". Inferencia bayesiana en modelos econométricos dinámicos . Oxford University Press. págs. 94–128. ISBN 0-19-877313-7.
  • Rubin, Donald B.; Gelman, Andrew ; John B. Carlin; Stern, Hal (2003). Análisis de datos bayesianos (2.ª ed.). Boca Raton: Chapman & Hall/CRC. ISBN 978-1-58488-388-3.Sr .  2027492.
  • Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano . Berlín: Springer-Verlag. ISBN 978-0-387-96098-2.Sr. 0804611  .
  • Berger, James O.; Strawderman, William E. (1996). "Elección de valores a priori jerárquicos: admisibilidad en la estimación de medias normales". Anales de estadística . 24 (3): 931–951. doi : 10.1214/aos/1032526950 . MR  1401831. Zbl  0865.62004.
  • Bernardo, Jose M. (1979). "Distribuciones posteriores de referencia para inferencia bayesiana". Revista de la Royal Statistical Society, Serie B . 41 (2): 113–147. JSTOR  2985028. MR  0547240.
  • James O. Berger ; José M. Bernardo ; Dongchu Sun (2009). "La definición formal de los priores de referencia". Annals of Statistics . 37 (2): 905–938. arXiv : 0904.0156 . Código Bibliográfico :2009arXiv0904.0156B. doi :10.1214/07-AOS587. S2CID  3221355.
  • Jaynes, Edwin T. (2003). Teoría de la probabilidad: la lógica de la ciencia. Cambridge University Press. ISBN 978-0-521-59271-0.
  • Williamson, Jon (2010). «Reseña de Bruno di Finetti. Lecciones filosóficas sobre probabilidad» (PDF) . Philosophia Mathematica . 18 (1): 130–135. doi :10.1093/philmat/nkp019. Archivado desde el original (PDF) el 2011-06-09 . Consultado el 2010-07-02 .
  • PriorDB es una base de datos colaborativa de modelos y sus valores anteriores
Retrieved from "https://en.wikipedia.org/w/index.php?title=Prior_probability&oldid=1249522921#Uninformative_priors"