Informante (estadísticas)

Gradiente de la función de verosimilitud

En estadística , la puntuación (o informante [1] ) es el gradiente de la función de log-verosimilitud con respecto al vector de parámetros . Evaluada en un punto particular del vector de parámetros, la puntuación indica la inclinación de la función de log-verosimilitud y, por lo tanto, la sensibilidad a cambios infinitesimales en los valores de los parámetros. Si la función de log-verosimilitud es continua en el espacio de parámetros , la puntuación se anulará en un máximo o mínimo local ; este hecho se utiliza en la estimación de máxima verosimilitud para encontrar los valores de los parámetros que maximizan la función de verosimilitud.

Dado que la puntuación es una función de las observaciones , que están sujetas a errores de muestreo , se presta a una estadística de prueba conocida como prueba de puntuación en la que el parámetro se mantiene en un valor particular. Además, la relación de dos funciones de verosimilitud evaluadas en dos valores de parámetros distintos puede entenderse como una integral definida de la función de puntuación. [2]

Definición

La puntuación es el gradiente (el vector de derivadas parciales ) de , el logaritmo natural de la función de verosimilitud , con respecto a un vector de parámetros de dimensión m . registro yo ( θ ; incógnita ) {\displaystyle \log {\mathcal {L}}(\theta ;x)} θ {\estilo de visualización \theta}

s ( θ ; incógnita ) registro yo ( θ ; incógnita ) θ {\displaystyle s(\theta ;x)\equiv {\frac {\parcial \log {\mathcal {L}}(\theta ;x)}{\parcial \theta }}}

Esta diferenciación produce un vector de fila en cada valor de y , e indica la sensibilidad de la probabilidad (su derivada normalizada por su valor). ( 1 × metro ) {\displaystyle (1\veces m)} θ {\estilo de visualización \theta} incógnita {\estilo de visualización x}

En la literatura más antigua, [ cita requerida ] "puntuación lineal" puede referirse a la puntuación con respecto a la traducción infinitesimal de una densidad dada. Esta convención surge de una época en la que el parámetro principal de interés era la media o la mediana de una distribución. En este caso, la probabilidad de una observación se da por una densidad de la forma [ aclaración necesaria ] . La "puntuación lineal" se define entonces como yo ( θ ; incógnita ) = F ( incógnita + θ ) {\displaystyle {\mathcal {L}}(\theta ;X)=f(X+\theta )}

s yo i norte mi a a = incógnita registro F ( incógnita ) {\displaystyle s_{\rm {lineal}}={\frac {\parcial }{\parcial X}}\log f(X)}

Propiedades

Significar

Si bien la puntuación es una función de , también depende de las observaciones en las que se evalúa la función de verosimilitud y, en vista del carácter aleatorio del muestreo, se puede tomar su valor esperado sobre el espacio muestral . Bajo ciertas condiciones de regularidad en las funciones de densidad de las variables aleatorias, [3] [4] el valor esperado de la puntuación, evaluada en el valor verdadero del parámetro , es cero. Para ver esto, reescriba la función de verosimilitud como una función de densidad de probabilidad , y denote el espacio muestral . Entonces: θ {\estilo de visualización \theta} incógnita = ( incógnita 1 , incógnita 2 , , incógnita yo ) {\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots ,x_{T})} θ {\estilo de visualización \theta} yo {\displaystyle {\mathcal {L}}} yo ( θ ; incógnita ) = F ( incógnita ; θ ) {\displaystyle {\mathcal {L}}(\theta ;x)=f(x;\theta )} incógnita {\displaystyle {\mathcal {X}}}

mi ( s θ ) = incógnita F ( incógnita ; θ ) θ registro yo ( θ ; incógnita ) d incógnita = incógnita F ( incógnita ; θ ) 1 F ( incógnita ; θ ) F ( incógnita ; θ ) θ d incógnita = incógnita F ( incógnita ; θ ) θ d incógnita {\displaystyle {\begin{aligned}\operatorname {E} (s\mid \theta )&=\int _{\mathcal {X}}f(x;\theta ){\frac {\partial }{\partial \theta }}\log {\mathcal {L}}(\theta ;x)\,dx\\[6pt]&=\int _{\mathcal {X}}f(x;\theta ){\frac {1}{f(x;\theta )}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx=\int _{\mathcal {X}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx\end{aligned}}}

Las condiciones de regularidad asumidas permiten el intercambio de derivada e integral (ver regla integral de Leibniz ), por lo tanto la expresión anterior puede reescribirse como [ aclaración necesaria ]

θ incógnita F ( incógnita ; θ ) d incógnita = θ 1 = 0. {\displaystyle {\frac {\parcial }{\parcial \theta }}\int _{\mathcal {X}}f(x;\theta )\,dx={\frac {\parcial }{\parcial \theta }}1=0.}

Vale la pena repetir el resultado anterior en palabras: el valor esperado de la puntuación, en el valor verdadero del parámetro, es cero. Por lo tanto, si uno tomara muestras repetidamente de alguna distribución y calculara repetidamente la puntuación, entonces el valor medio de las puntuaciones tendería a cero asintóticamente . θ {\estilo de visualización \theta}

Diferencia

La varianza de la puntuación, , se puede derivar de la expresión anterior para el valor esperado. Variedad ( s ( θ ) ) = mi ( s ( θ ) s ( θ ) yo ) {\displaystyle \operatorname {Var} (s(\theta ))=\operatorname {E} (s(\theta )s(\theta )^{\mathsf {T}})}

0 = θ T E ( s θ ) = θ T X log L ( θ ; X ) θ f ( x ; θ ) d x = X θ T { log L ( θ ; X ) θ f ( x ; θ ) } d x = X { 2 log L ( θ ; X ) θ θ T f ( x ; θ ) + log L ( θ ; X ) θ f ( x ; θ ) θ T } d x = X 2 log L ( θ ; X ) θ θ T f ( x ; θ ) d x + X log L ( θ ; X ) θ f ( x ; θ ) θ T d x = X 2 log L ( θ ; X ) θ θ T f ( x ; θ ) d x + X log L ( θ ; X ) θ log L ( θ ; X ) θ T f ( x ; θ ) d x = E ( 2 log L ( θ ; X ) θ θ T ) + E ( log L ( θ ; X ) θ [ log L ( θ ; X ) θ ] T ) {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\operatorname {E} (s\mid \theta )\\[6pt]&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\left\{{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}\left\{{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \,\partial \theta ^{\mathsf {T}}}}f(x;\theta )+{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \,\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx\\[6pt]&=\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \,\partial \theta ^{\mathsf {T}}}}\right)+\operatorname {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\left[{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\right]^{\mathsf {T}}\right)\end{aligned}}}

Por lo tanto, la varianza de la puntuación es igual al valor esperado negativo de la matriz hessiana de la verosimilitud logarítmica. [5]

E ( s ( θ ) s ( θ ) T ) = E ( 2 log L θ θ T ) {\displaystyle \operatorname {E} (s(\theta )s(\theta )^{\mathsf {T}})=-\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}}{\partial \theta \,\partial \theta ^{\mathsf {T}}}}\right)}

Esta última se conoce como información de Fisher y se escribe . Nótese que la información de Fisher no es una función de ninguna observación en particular, ya que la variable aleatoria se ha promediado. Este concepto de información es útil cuando se comparan dos métodos de observación de algún proceso aleatorio . I ( θ ) {\displaystyle {\mathcal {I}}(\theta )} X {\displaystyle X}

Ejemplos

Proceso de Bernoulli

Consideremos observar los primeros n ensayos de un proceso de Bernoulli y ver que A de ellos son éxitos y los B restantes son fracasos, donde la probabilidad de éxito es  θ .

Entonces la probabilidad es L {\displaystyle {\mathcal {L}}}

L ( θ ; A , B ) = ( A + B ) ! A ! B ! θ A ( 1 θ ) B , {\displaystyle {\mathcal {L}}(\theta ;A,B)={\frac {(A+B)!}{A!B!}}\theta ^{A}(1-\theta )^{B},}

Entonces la puntuación es

s = log L θ = 1 L L θ = A θ B 1 θ . {\displaystyle s={\frac {\partial \log {\mathcal {L}}}{\partial \theta }}={\frac {1}{\mathcal {L}}}{\frac {\partial {\mathcal {L}}}{\partial \theta }}={\frac {A}{\theta }}-{\frac {B}{1-\theta }}.}

Ahora podemos verificar que la expectativa de la puntuación es cero. Observando que la expectativa de A es y la expectativa de B es n (1 −  θ ) [recordemos que A y B son variables aleatorias], podemos ver que la expectativa de s es

E ( s ) = n θ θ n ( 1 θ ) 1 θ = n n = 0. {\displaystyle E(s)={\frac {n\theta }{\theta }}-{\frac {n(1-\theta )}{1-\theta }}=n-n=0.}

También podemos comprobar la varianza de . Sabemos que A + B = n (por lo que Bn  −  A ) y la varianza de A es (1 −  θ ) por lo que la varianza de s es s {\displaystyle s}

var ( s ) = var ( A θ n A 1 θ ) = var ( A ( 1 θ + 1 1 θ ) ) = ( 1 θ + 1 1 θ ) 2 var ( A ) = n θ ( 1 θ ) . {\displaystyle {\begin{aligned}\operatorname {var} (s)&=\operatorname {var} \left({\frac {A}{\theta }}-{\frac {n-A}{1-\theta }}\right)=\operatorname {var} \left(A\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)\right)\\&=\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)^{2}\operatorname {var} (A)={\frac {n}{\theta (1-\theta )}}.\end{aligned}}}

Modelo de resultado binario

Para los modelos con resultados binarios ( Y = 1 o 0), el modelo se puede puntuar con el logaritmo de las predicciones.

S = Y log ( p ) + ( 1 Y ) ( log ( 1 p ) ) {\displaystyle S=Y\log(p)+(1-Y)(\log(1-p))}

donde p es la probabilidad en el modelo a estimar y S es el puntaje. [6]

Aplicaciones

Algoritmo de puntuación

El algoritmo de puntuación es un método iterativo para determinar numéricamente el estimador de máxima verosimilitud .

Prueba de puntuación

Nótese que es una función de y la observación , por lo que, en general, no es una estadística . Sin embargo, en ciertas aplicaciones, como la prueba de puntuación , la puntuación se evalúa en un valor específico de (como un valor de hipótesis nula), en cuyo caso el resultado es una estadística. Intuitivamente, si el estimador restringido está cerca del máximo de la función de verosimilitud, la puntuación no debería diferir de cero en más de un error de muestreo . En 1948, CR Rao demostró por primera vez que el cuadrado de la puntuación dividido por la matriz de información sigue una distribución asintótica χ 2 bajo la hipótesis nula. [7] s {\displaystyle s} θ {\displaystyle \theta } x = ( x 1 , x 2 , , x T ) {\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots ,x_{T})} θ {\displaystyle \theta }

Tenga en cuenta además que la prueba de razón de verosimilitud se da por

2 [ log L ( θ 0 ) log L ( θ ^ ) ] = 2 θ 0 θ ^ d log L ( θ ) d θ d θ = 2 θ 0 θ ^ s ( θ ) d θ {\displaystyle -2\left[\log {\mathcal {L}}(\theta _{0})-\log {\mathcal {L}}({\hat {\theta }})\right]=2\int _{\theta _{0}}^{\hat {\theta }}{\frac {d\,\log {\mathcal {L}}(\theta )}{d\theta }}\,d\theta =2\int _{\theta _{0}}^{\hat {\theta }}s(\theta )\,d\theta }

lo que significa que la prueba de razón de verosimilitud puede entenderse como el área bajo la función de puntuación entre y . [8] θ 0 {\displaystyle \theta _{0}} θ ^ {\displaystyle {\hat {\theta }}}

Correspondencia de puntuaciones (aprendizaje automático)

La correspondencia de puntuaciones describe el proceso de aplicación de algoritmos de aprendizaje automático (comúnmente redes neuronales ) para aproximar la función de puntuación de una distribución desconocida a partir de muestras finitas. La función aprendida puede luego usarse en modelos generativos para extraer nuevas muestras de . [9] s θ x log p ( x ) {\displaystyle s_{\theta }\approx \nabla _{x}\log p(x)} π ( x ) {\displaystyle \pi (x)} s θ {\displaystyle s_{\theta }} π ( x ) {\displaystyle \pi (x)}

Puede resultar confuso que se haya utilizado la palabra puntuación para , ya que no es una función de verosimilitud ni tiene una derivada con respecto a los parámetros. Para obtener más información sobre esta definición, consulte el artículo de referencia. [10] x log p ( x ) {\displaystyle \nabla _{x}\log p(x)}

Historia

El término "función de puntuación" puede parecer inicialmente ajeno a su significado contemporáneo, que se centra en la derivada de la función de verosimilitud logarítmica en los modelos estadísticos. Esta aparente discrepancia se remonta a los orígenes históricos del término. El concepto de "función de puntuación" fue introducido por primera vez por el estadístico británico Ronald Fisher en su artículo de 1935 titulado "La detección de vínculos con anomalías 'dominantes'". [11] Fisher empleó el término en el contexto del análisis genético, específicamente para familias en las que uno de los padres tenía una anomalía genética dominante. Con el tiempo, la aplicación y el significado de la "función de puntuación" han evolucionado, divergiendo de su contexto original pero conservando sus principios fundamentales. [12] [13]

Fisher utilizó inicialmente el término en el contexto del análisis de los atributos genéticos en familias en las que un progenitor presentaba una anomalía genética. Clasificó a los hijos de esos padres en cuatro clases basándose en dos rasgos binarios: si habían heredado la anomalía o no, y su estado de cigosidad como homocigotos o heterocigotos. Fisher ideó un método para asignar a cada familia una "puntuación", calculada en función del número de hijos que caían en cada una de las cuatro categorías. Esta puntuación se utilizó para estimar lo que él denominó el "parámetro de ligamiento", que describía la probabilidad de que se heredara la anomalía genética. Fisher evaluó la eficacia de su regla de puntuación comparándola con una regla alternativa y con lo que denominó la "puntuación ideal". La puntuación ideal se definió como la derivada del logaritmo de la densidad de muestreo, como se menciona en la página 193 de su obra. [11]

El término "puntaje" evolucionó posteriormente a través de investigaciones posteriores, ampliándose notablemente más allá de la aplicación específica en genética que Fisher había abordado inicialmente. Varios autores adaptaron la metodología original de Fisher a contextos estadísticos más generalizados. En estas aplicaciones más amplias, el término "puntaje" o "puntaje eficiente" comenzó a referirse más comúnmente a la derivada de la función de log-verosimilitud del modelo estadístico en cuestión. Esta expansión conceptual fue influenciada significativamente por un artículo de 1948 de CR Rao, que introdujo "pruebas de puntaje eficiente" que empleaban la derivada de la función de log-verosimilitud. [14]

Así, lo que comenzó como un término especializado en el ámbito de la estadística genética ha evolucionado hasta convertirse en un concepto fundamental en la teoría estadística más amplia, a menudo asociado con la derivada de la función de log-verosimilitud.

Véase también

Notas

  1. ^ Informante en Enciclopedia de Matemáticas
  2. ^ Pickles, Andrew (1985). Introducción al análisis de verosimilitud. Norwich: WH Hutchins & Sons. pp. 24–29. ISBN 0-86094-190-6.
  3. ^ Serfling, Robert J. (1980). Teoremas de aproximación de las estadísticas matemáticas . Nueva York: John Wiley & Sons. pág. 145. ISBN. 0-471-02403-1.
  4. ^ Greenberg, Edward; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente hacia la literatura. Nueva York: John Wiley & Sons. pág. 25. ISBN 0-471-09077-8.
  5. ^ Sargan, Denis (1988). Lecciones sobre econometría avanzada . Oxford: Basil Blackwell. pp. 16-18. ISBN. 0-631-14956-2.
  6. ^ Steyerberg, EW; Vickers, AJ; Cook, NR; Gerds, T.; Gonen, M.; Obuchowski, N .; Pencina, MJ; Kattan, MW (2010). "Evaluación del desempeño de los modelos de predicción. Un marco para medidas tradicionales y novedosas". Epidemiología . 21 (1): 128–138. doi :10.1097/EDE.0b013e3181c30fb2. PMC 3575184 . PMID  20010215. 
  7. ^ Rao, C. Radhakrishna (1948). "Pruebas de hipótesis estadísticas con muestras grandes relativas a varios parámetros con aplicaciones a problemas de estimación". Mathematical Proceedings of the Cambridge Philosophical Society . 44 (1): 50–57. Bibcode :1948PCPS...44...50R. doi :10.1017/S0305004100023987. S2CID  122382660.
  8. ^ Buse, A. (1982). "Las pruebas de razón de verosimilitud, de Wald y del multiplicador de Lagrange: una nota expositiva". The American Statistician . 36 (3a): 153–157. doi :10.1080/00031305.1982.10482817.
  9. ^ Canción de Yang; Jascha Sohl-Dickstein; Diederik P. Kingma; Abhishek Kumar; Stefano Ermón; Ben Poole (2020). "Modelado generativo basado en puntuaciones mediante ecuaciones diferenciales estocásticas". arXiv : 2011.13456 [cs.LG].
  10. ^ https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf [ URL básica PDF ]
  11. ^ ab Fisher, Ronald Aylmer. "La detección de vínculos con anomalías 'dominantes'". Anales de eugenesia 6.2 (1935): 187-201.
  12. ^ Ben (https://stats.stackexchange.com/users/173082/ben), Interpretación de "puntuación", URL (versión: 2019-04-17): https://stats.stackexchange.com/q/342374
  13. ^ Miller, Jeff. "Usos más antiguos conocidos de algunas de las palabras de las matemáticas (S)". Apuntes de historia de las matemáticas. Última revisión el 14 de abril de 2020. https://mathshistory.st-andrews.ac.uk/Miller/mathword/s/
  14. ^ Radhakrishna Rao, C. (1948). Pruebas de hipótesis estadísticas con muestras grandes sobre varios parámetros con aplicaciones a problemas de estimación. Mathematical Proceedings of the Cambridge Philosophical Society, 44(1), 50-57. doi:10.1017/S0305004100023987

Referencias

Retrieved from "https://en.wikipedia.org/w/index.php?title=Informant_(statistics)&oldid=1241848614"