En estadística , la función logit ( / ˈl oʊ dʒ ɪ t / LOH -jit ) es la función cuantil asociada a la distribución logística estándar . Tiene muchos usos en el análisis de datos y el aprendizaje automático , especialmente en las transformaciones de datos .
Matemáticamente, el logit es la inversa de la función logística estándar , por lo que el logit se define como
Por este motivo, el logit también se denomina log-odds , ya que es igual al logaritmo de las probabilidades, donde p es una probabilidad. Por lo tanto, el logit es un tipo de función que asigna valores de probabilidad de a números reales en , [1] similar a la función probit .
Si p es una probabilidad , entonces p /(1 − p ) son las probabilidades correspondientes ; el logit de la probabilidad es el logaritmo de las probabilidades, es decir:
La base de la función logarítmica utilizada tiene poca importancia en el presente artículo, siempre que sea mayor que 1, pero el logaritmo natural con base e es el más utilizado. La elección de la base corresponde a la elección de la unidad logarítmica para el valor: la base 2 corresponde a un shannon , la base e a un nat y la base 10 a un hartley ; estas unidades se utilizan particularmente en interpretaciones de teoría de la información. Para cada elección de base, la función logit toma valores entre el infinito negativo y el infinito positivo.
La función “logística” de cualquier número viene dada por el logit inverso :
La diferencia entre los logit de dos probabilidades es el logaritmo del odds ratio ( R ), lo que proporciona una forma abreviada de escribir la combinación correcta de odds ratios simplemente sumando y restando :
Se han explorado varios enfoques para adaptar los métodos de regresión lineal a un dominio donde el resultado es un valor de probabilidad , en lugar de cualquier número real . En muchos casos, dichos esfuerzos se han centrado en modelar este problema mediante la asignación del rango a y luego ejecutar la regresión lineal sobre estos valores transformados. [2]
En 1934, Chester Ittner Bliss utilizó la función de distribución normal acumulativa para realizar esta función y llamó a su modelo probit , una abreviatura de " unidad de probabilidad " . Sin embargo, esto es computacionalmente más costoso. [2]
En 1944, Joseph Berkson utilizó el logaritmo de probabilidades y llamó a esta función logit , una abreviatura de " unidad logística " , siguiendo la analogía para probit:
"Utilizo este término [logit] para seguir a Bliss, quien llamó a la función análoga que es lineal en para la curva normal 'probit'".
—Joseph Berkson (1944) [3]
El término log-odds fue utilizado ampliamente por Charles Sanders Peirce (finales del siglo XIX). [4] En 1949, GA Barnard acuñó el término comúnmente utilizado log-odds ; [5] [6] el log-odds de un evento es el logit de la probabilidad del evento. [7] Barnard también acuñó el término lods como una forma abstracta de "log-odds", [8] pero sugirió que "en la práctica, normalmente se debería usar el término 'odds', ya que es más familiar en la vida cotidiana". [9]
Estrechamente relacionadas con la función logit (y el modelo logit ) están la función probit y el modelo probit . Tanto logit como probit son funciones sigmoideas con un dominio entre 0 y 1, lo que las convierte en funciones cuantiles , es decir, inversas de la función de distribución acumulativa (CDF) de una distribución de probabilidad . De hecho, logit es la función cuantil de la distribución logística , mientras que probit es la función cuantil de la distribución normal . La función probit se denota por , donde es la CDF de la distribución normal estándar, como se acaba de mencionar:
Como se muestra en el gráfico de la derecha, las funciones logit y probit son extremadamente similares cuando se escala la función probit , de modo que su pendiente en y = 0 coincide con la pendiente de la función logit . Como resultado, a veces se utilizan modelos probit en lugar de modelos logit porque para ciertas aplicaciones (por ejemplo, en la teoría de respuesta a los ítems ) la implementación es más sencilla. [14]
Este artículo incluye una lista de referencias generales , pero carece de suficientes citas en línea correspondientes . ( Noviembre de 2010 ) |