Suavizado aditivo

Técnica estadística para suavizar datos categóricos

En estadística , el suavizado aditivo , también llamado suavizado de Laplace [1] o suavizado de Lidstone , es una técnica que se utiliza para suavizar los datos de recuento, eliminando los problemas causados ​​por ciertos valores que tienen 0 ocurrencias. Dado un conjunto de recuentos de observaciones de una distribución multinomial dimensional con ensayos, una versión "suavizada" de los recuentos proporciona el estimador incógnita = incógnita 1 , incógnita 2 , , incógnita d {\displaystyle \mathbf {x} =\langle x_{1},x_{2},\ldots ,x_{d}\rangle } d {\estilo de visualización d} norte {\estilo de visualización N}

θ ^ i = incógnita i + alfa norte + alfa d ( i = 1 , , d ) , {\displaystyle {\hat {\theta }}_{i}={\frac {x_{i}+\alpha }{N+\alpha d}}\qquad (i=1,\ldots ,d),}

donde el recuento suavizado y el "pseudorecuento" α  > 0 es un parámetro de suavizado , con α  = 0 correspondiente a ningún suavizado (este parámetro se explica en § Pseudorecuento a continuación). El suavizado aditivo es un tipo de estimador de contracción , ya que la estimación resultante estará entre la probabilidad empírica ( frecuencia relativa ) y la probabilidad uniforme Invocando la regla de sucesión de Laplace , algunos autores han argumentado [ cita requerida ] que α debería ser 1 (en cuyo caso también se utiliza el término suavizado de adición de uno [2] [3] ) [ se necesita más explicación ] , aunque en la práctica normalmente se elige un valor más pequeño. incógnita ^ i = norte θ ^ i {\displaystyle {\hat {x}}_{i}=N{\hat {\theta }}_{i}} incógnita i / norte Estilo de visualización x_{i}/N 1 / d . {\estilo de visualización 1/d.}

Desde un punto de vista bayesiano , esto corresponde al valor esperado de la distribución posterior , utilizando una distribución de Dirichlet simétrica con parámetro α como distribución previa . En el caso especial en el que el número de categorías es 2, esto es equivalente a utilizar una distribución beta como la distribución previa conjugada para los parámetros de la distribución binomial .

Historia

Laplace ideó esta técnica de suavizado cuando intentó estimar la probabilidad de que el sol salga mañana. Su razonamiento fue que incluso dada una muestra grande de días con sol naciente, todavía no podemos estar completamente seguros de que el sol saldrá mañana (conocido como el problema del amanecer ). [4]

Pseudoconteo

Un pseudoconteo es una cantidad (que generalmente no es un número entero, a pesar de su nombre) que se agrega al número de casos observados para cambiar la probabilidad esperada en un modelo de esos datos, cuando no se sabe que es cero. Se llama así porque, en términos generales, un pseudoconteo de valor pesa en la distribución posterior de manera similar a que cada categoría tiene un conteo adicional de . Si la frecuencia de cada elemento está fuera de las muestras, la probabilidad empírica del evento es alfa {\estilo de visualización \alpha} alfa {\estilo de visualización \alpha} i {\estilo de visualización i} incógnita i Estilo de visualización x_{i}} norte {\estilo de visualización N} i {\estilo de visualización i}

pag i , empírico = incógnita i norte , {\displaystyle p_{i,{\text{empírico}}}={\frac {x_{i}}{N}},}

pero la probabilidad posterior cuando se suaviza aditivamente es

pag i , alfa -suavizado = incógnita i + alfa norte + alfa d , {\displaystyle p_{i,\alpha {\text{-suavizado}}}={\frac {x_{i}+\alpha }{N+\alpha d}},}

como para aumentar cada recuento a priori. incógnita i Estilo de visualización x_{i}} alfa {\estilo de visualización \alpha}

Dependiendo del conocimiento previo, que a veces es un valor subjetivo, un pseudoconteo puede tener cualquier valor finito no negativo. Puede ser solo cero (o la posibilidad ignorada) si es imposible por definición, como la posibilidad de que un dígito decimal de π sea una letra, o una posibilidad física que sería rechazada y, por lo tanto, no contada, como una computadora que imprime una letra cuando se ejecuta un programa válido para π , o excluida y no contada porque no tiene interés, como si solo estuviera interesado en los ceros y unos. Generalmente, también existe la posibilidad de que ningún valor sea computable u observable en un tiempo finito (ver el problema de la detención ). Pero al menos una posibilidad debe tener un pseudoconteo distinto de cero, de lo contrario no se podría calcular ninguna predicción antes de la primera observación. Los valores relativos de los pseudoconteos representan las probabilidades esperadas previas relativas de sus posibilidades. La suma de los pseudoconteos, que puede ser muy grande, representa el peso estimado del conocimiento previo comparado con todas las observaciones reales (una para cada una) al determinar la probabilidad esperada.

En cualquier conjunto o muestra de datos observados existe la posibilidad, especialmente con eventos de baja probabilidad y con conjuntos de datos pequeños, de que un posible evento no ocurra. Por lo tanto, su frecuencia observada es cero, lo que aparentemente implica una probabilidad de cero. Esta simplificación excesiva es inexacta y a menudo inútil, particularmente en técnicas de aprendizaje automático basadas en la probabilidad, como las redes neuronales artificiales y los modelos ocultos de Markov . Al ajustar artificialmente la probabilidad de eventos raros (pero no imposibles) para que esas probabilidades no sean exactamente cero, se evitan los problemas de frecuencia cero . Véase también la regla de Cromwell .

El método más simple consiste en sumar uno a cada número observado de eventos, incluidas las posibilidades de recuento cero. Esto a veces se denomina regla de sucesión de Laplace . Este método es equivalente a suponer una distribución previa uniforme sobre las probabilidades de cada evento posible (que abarca el símplex donde cada probabilidad está entre 0 y 1, y todas suman 1).

Utilizando el enfoque anterior de Jeffreys , se debe agregar un pseudoconteo de la mitad a cada resultado posible.

Los pseudoconteos deberían establecerse en uno solo cuando no hay ningún conocimiento previo en absoluto – véase el principio de indiferencia . Sin embargo, dado el conocimiento previo apropiado, la suma debería ajustarse en proporción a la expectativa de que las probabilidades previas deberían considerarse correctas, a pesar de la evidencia de lo contrario – véase un análisis más detallado . Los valores más altos son apropiados en la medida en que existe un conocimiento previo de los valores verdaderos (para una moneda en perfecto estado, por ejemplo); valores más bajos en la medida en que existe un conocimiento previo de que existe un sesgo probable, pero de grado desconocido (para una moneda doblada, por ejemplo).

Un enfoque más complejo es estimar la probabilidad de los eventos a partir de otros factores y ajustarla en consecuencia.

Ejemplos

Una forma de motivar los pseudoconteos, en particular para los datos binomiales, es mediante una fórmula para el punto medio de una estimación de intervalo , en particular un intervalo de confianza de proporción binomial . La más conocida se debe a Edwin Bidwell Wilson , en Wilson (1927): el punto medio del intervalo de puntuación de Wilson correspondiente a ⁠ ⁠ el {\estilo de visualización z} desviaciones estándar en cada lado es

norte S + el norte + 2 el . {\displaystyle {\frac {n_{S}+z}{n+2z}}.}

Si tomamos las desviaciones estándar para aproximarnos a un intervalo de confianza del 95 % ( ) obtenemos un pseudoconteo de 2 para cada resultado, es decir, 4 en total, conocido coloquialmente como la "regla del más cuatro": el = 2 {\displaystyle z=2} z 1.96 {\displaystyle z\approx 1.96}

n S + 2 n + 4 . {\displaystyle {\frac {n_{S}+2}{n+4}}.}

Este es también el punto medio del intervalo Agresti-Coull (Agresti y Coull 1998).

Generalizado al caso de tasas de incidencia conocidas

A menudo, el sesgo de una población de ensayo desconocida se prueba contra una población de control con parámetros conocidos (tasas de incidencia). En este caso, la probabilidad uniforme debe reemplazarse por la tasa de incidencia conocida de la población de control para calcular el estimador suavizado: μ = μ 1 , μ 2 , , μ d . {\displaystyle {\boldsymbol {\mu }}=\langle \mu _{1},\mu _{2},\ldots ,\mu _{d}\rangle .} 1 / d {\displaystyle 1/d} μ i {\displaystyle \mu _{i}}

θ ^ i = x i + μ i α d N + α d ( i = 1 , , d ) . {\displaystyle {\hat {\theta }}_{i}={\frac {x_{i}+\mu _{i}\alpha d}{N+\alpha d}}\qquad (i=1,\ldots ,d).}

Como comprobación de consistencia, si el estimador empírico resulta ser igual a la tasa de incidencia, es decir, el estimador suavizado es independiente de la tasa de incidencia y también es igual a ella. μ i = x i / N , {\displaystyle \mu _{i}=x_{i}/N,} α {\displaystyle \alpha }

Aplicaciones

Clasificación

El suavizado aditivo es comúnmente un componente de los clasificadores Bayes ingenuos .

Modelado estadístico del lenguaje

En un modelo de bolsa de palabras de procesamiento de lenguaje natural y recuperación de información, los datos consisten en el número de ocurrencias de cada palabra en un documento. El suavizado aditivo permite la asignación de probabilidades distintas de cero a palabras que no aparecen en la muestra. Estudios recientes han demostrado que el suavizado aditivo es más eficaz que otros métodos de suavizado de probabilidad en varias tareas de recuperación, como la retroalimentación de pseudo-relevancia basada en modelos de lenguaje y los sistemas de recomendación . [5] [6]

Véase también

Referencias

  1. ^ CD Manning, P. Raghavan y H. Schütze (2008). Introducción a la recuperación de información . Cambridge University Press, pág. 260.
  2. ^ Jurafsky, Daniel; Martin, James H. (junio de 2008). Procesamiento del habla y del lenguaje (2.ª ed.). Prentice Hall. pág. 132. ISBN 978-0-13-187321-6.
  3. ^ Russell, Stuart; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (2.ª ed.). Pearson Education, Inc., pág. 863.
  4. ^ Clase 5 | Aprendizaje automático (Stanford) a las 1 h 10 min de la clase
  5. ^ Hazimeh, Hussein; Zhai, ChengXiang. "Análisis axiomático de métodos de suavizado en modelos lingüísticos para retroalimentación de pseudo-relevancia". Actas de la Conferencia Internacional de 2015 sobre la Teoría de la Recuperación de Información de ICTIR '15 .
  6. ^ Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "Suavizado aditivo para el modelado del lenguaje basado en la relevancia de sistemas de recomendación". CERI '16 Actas del IV Congreso Español de Recuperación de Información .

Fuentes

  • Wilson, EB (1927). "Inferencia probable, ley de sucesión e inferencia estadística". Revista de la Asociación Estadounidense de Estadística . 22 (158): 209–212. doi :10.1080/01621459.1927.10502953. JSTOR  2276774.
  • Agresti, Alan; Coull, Brent A. (1998). "Aproximación es mejor que 'exacta' para la estimación de intervalos de proporciones binomiales". The American Statistician . 52 (2): 119–126. doi :10.2307/2685469. JSTOR  2685469. MR  1628435.
  • SF Chen, J Goodman (1996). "Un estudio empírico de técnicas de suavizado para el modelado del lenguaje". Actas de la 34.ª reunión anual de la Asociación de Lingüística Computacional .
  • Pseudoconteos
    • Interpretación bayesiana de regularizadores de pseudoconteo
  • Un vídeo que explica el uso del suavizado aditivo en un clasificador Naïve Bayes
Retrieved from "https://en.wikipedia.org/w/index.php?title=Additive_smoothing&oldid=1222042281"