Logit ordenado

Modelo de regresión para variables dependientes ordinales

En estadística , el modelo logit ordenado (también regresión logística ordenada o modelo de probabilidades proporcionales ) es un modelo de regresión ordinal , es decir, un modelo de regresión para variables dependientes ordinales , considerado por primera vez por Peter McCullagh . ^[1] Por ejemplo, si una pregunta en una encuesta debe responderse con una elección entre "malo", "regular", "bueno", "muy bueno" y "excelente" , y el propósito del análisis es ver qué tan bien se puede predecir esa respuesta a partir de las respuestas a otras preguntas, algunas de las cuales pueden ser cuantitativas, entonces se puede utilizar la regresión logística ordenada. Puede considerarse como una extensión del modelo de regresión logística que se aplica a variables dependientes dicotómicas , lo que permite más de dos categorías de respuesta (ordenadas).

El modelo y el supuesto de probabilidades proporcionales

El modelo sólo se aplica a los datos que cumplen con el supuesto de probabilidades proporcionales , cuyo significado se puede ejemplificar de la siguiente manera. Supongamos que hay cinco resultados: "malo", "regular", "bueno", "muy bueno" y "excelente". Suponemos que las probabilidades de estos resultados están dadas por p ₁ ( x ), p ₂ ( x ), p ₃ ( x ), p ₄ ( x ), p ₅ ( x ), todas las cuales son funciones de alguna variable independiente x . Entonces, para un valor fijo de x, los logaritmos de las probabilidades (no los logaritmos de las probabilidades) de responder de ciertas maneras son:

{\begin{aligned}{\text{poor: }}&\log {\frac {p_{1}(x)}{p_{2}(x)+p_{3}(x)+p_{4}(x)+p_{5}(x)}},\\[8pt]{\text{poor or fair: }}&\log {\frac {p_{1}(x)+p_{2}(x)}{p_{3}(x)+p_{4}(x)+p_{5}(x)}},\\[8pt]{\text{poor, fair, or good: }}&\log {\frac {p_{1}(x)+p_{2}(x)+p_{3}(x)}{p_{4}(x)+p_{5}(x)}},\\[8pt]{\text{poor, fair, good, or very good: }}&\log {\frac {p_{1}(x)+p_{2}(x)+p_{3}(x)+p_{4}(x)}{p_{5}(x)}}\end{aligned}}

El supuesto de probabilidades proporcionales establece que los números que se suman a cada uno de estos logaritmos para obtener el siguiente son los mismos independientemente de x . En otras palabras, la diferencia entre el logaritmo de las probabilidades de tener una salud mala o regular menos el logaritmo de las probabilidades de tener una salud mala es la misma independientemente de x ; de manera similar, el logaritmo de las probabilidades de tener una salud mala, regular o buena menos el logaritmo de las probabilidades de tener una salud mala o regular es el mismo independientemente de x ; etc. ^[2]

Entre los ejemplos de categorías de respuesta de orden múltiple se incluyen las calificaciones de bonos, las encuestas de opinión con respuestas que van desde "totalmente de acuerdo" a "totalmente en desacuerdo", los niveles de gasto estatal en programas gubernamentales (alto, medio o bajo), el nivel de cobertura de seguro elegido (ninguno, parcial o completo) y la situación laboral (no empleado, empleado a tiempo parcial o empleado a tiempo completo). ^[3]

El logit ordenado se puede derivar de un modelo de variable latente, similar a aquel del que se puede derivar la regresión logística binaria . Supongamos que el proceso subyacente que se va a caracterizar es

y^{*}=\mathbf {x} ^{\mathsf {T}}\beta +\varepsilon ,\,

donde es una variable dependiente no observada (quizás el nivel exacto de acuerdo con la afirmación propuesta por el encuestador); es el vector de variables independientes; es el término de error , que se supone que sigue una distribución logística estándar; y es el vector de coeficientes de regresión que deseamos estimar. Supongamos además que, si bien no podemos observar , en cambio solo podemos observar las categorías de respuesta. $y^{*}$ $\mathbf {x}$ $\varepsilon$ $\beta$ $y^{*}$

y={\begin{cases}0&{\text{if }}y^{*}\leq \mu _{1},\\1&{\text{if }}\mu _{1}<y^{*}\leq \mu _{2},\\2&{\text{if }}\mu _{2}<y^{*}\leq \mu _{3},\\\vdots \\N&{\text{if }}\mu _{N}<y^{*}\end{cases}}

donde los parámetros son los puntos finales impuestos externamente de las categorías observables. Luego, la técnica logit ordenada utilizará las observaciones en y , que son una forma de datos censurados en y* , para ajustar el vector de parámetros . $\mu _{i}$ $\beta$

Estimación

Como es habitual, la estimación de máxima verosimilitud o la inferencia bayesiana son las formas más comunes de ajustar parámetros para dicho modelo. ^[4] Los parámetros estimados indican la dirección y la magnitud del efecto de cada variable independiente sobre la probabilidad de que la variable dependiente caiga en una categoría superior o inferior.

Aplicaciones

Las regresiones logísticas ordenadas se han utilizado en múltiples campos, como el transporte, ^[5] el marketing ^[6] o la gestión de desastres. ^[7]

En la investigación clínica , el efecto que un fármaco puede tener en un paciente se puede modelar con regresión ordinal. Las variables independientes pueden incluir el uso o no uso del fármaco, así como variables de control como datos demográficos y detalles del historial médico. La variable dependiente podría clasificarse en la siguiente lista: curación completa, mejoría de los síntomas, ausencia de cambios, empeoramiento de los síntomas o muerte. ^{[ cita requerida ]}

Otro ejemplo de aplicación son los ítems tipo Likert que se emplean habitualmente en las encuestas, en las que los encuestados califican su grado de acuerdo en una escala ordenada (por ejemplo, de “Totalmente en desacuerdo” a “Totalmente de acuerdo”). El modelo probit ordenado proporciona un ajuste adecuado a estos datos, preservando el orden de las opciones de respuesta sin hacer suposiciones sobre las distancias de intervalo entre las opciones. ^[8]

Véase también

Referencias

^ McCullagh, Peter (1980). "Modelos de regresión para datos ordinales". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 42 (2): 109–142. doi :10.1111/j.2517-6161.1980.tb01109.x. JSTOR 2984952.
^ Greene, William H. (2012). Análisis econométrico (séptima edición). Boston: Pearson Education. pp. 827–831. ISBN 978-0-273-75356-8.
^ Greene, William H. (2012). Análisis econométrico (séptima edición). Boston: Pearson Education. pp. 824–827. ISBN 978-0-273-75356-8.
^ Greene, William H.; Hensher, David A. (8 de abril de 2010). Modelado de elecciones ordenadas: una introducción. Cambridge University Press. ISBN 978-1-139-48595-1.
^ dell'Olio, Luigi; Ibeas, Angel; Cecín, Patricia (2010-11-01). "Modelización de la percepción de los usuarios sobre la calidad del transporte público en autobús". Política de transporte . 17 (6): 388–397. doi :10.1016/j.tranpol.2010.04.006. ISSN 0967-070X.
^ Katahira, Hotaka (febrero de 1990). "Mapeo perceptual mediante análisis logit ordenado". Marketing Science . 9 (1): 1–17. doi :10.1287/mksc.9.1.1. ISSN 0732-2399.
^ Lovreglio, Ruggiero; Kuligowski, Erica; Walpole, Emily; Link, Eric; Gwynne, Steve (1 de noviembre de 2020). "Calibración del modelo de decisión sobre incendios forestales mediante el uso de modelos de elección híbridos". Revista internacional de reducción del riesgo de desastres . 50 : 101770. doi : 10.1016/j.ijdrr.2020.101770 . ISSN 2212-4209.
^ Liddell, T; Kruschke, J (2018). "Análisis de datos ordinales con modelos métricos: ¿Qué podría salir mal?" (PDF) . Revista de Psicología Social Experimental . 79 : 328–348. doi :10.1016/j.jesp.2018.08.009.

Lectura adicional

Becker, William E.; Kennedy, Peter E. (1992). "Una exposición gráfica del probit ordenado". Teoría econométrica . 8 (1): 127–131. doi :10.1017/S0266466600010781.
Gelman, Andrew; Hill, Jennifer (2007). Análisis de datos mediante regresión y modelos multinivel/jerárquicos. Nueva York: Cambridge University Press. pp. 119–124. ISBN 978-0-521-68689-1.
Hardin, James; Hilbe, Joseph (2007). Modelos lineales generalizados y extensiones (2.ª ed.). College Station: Stata Press. ISBN 978-1-59718-014-6.
Woodward, Mark (2005). Epidemiología: diseño de estudios y análisis de datos (2.ª ed.). Chapman & Hall/CRC. ISBN 978-1-58488-415-6.
Wooldridge, Jeffrey (2010). Análisis econométrico de datos de sección transversal y de panel (segunda edición). Cambridge: MIT Press. pp. 643–666. ISBN 978-0-262-23258-6.

Enlaces externos

Simon, Steve (22 de septiembre de 2004). "Tamaño de muestra para un resultado ordinal". STATS − El intento de Steve de enseñar estadística . Consultado el 22 de agosto de 2014 .
Rodríguez, Germán. "Modelos Logit pedidos". Universidad de Princeton .

[1] McCullagh, Peter (1980). "Modelos de regresión para datos ordinales". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 42 (2): 109–142. doi :10.1111/j.2517-6161.1980.tb01109.x. JSTOR 2984952.

[2] Greene, William H. (2012). Análisis econométrico (séptima edición). Boston: Pearson Education. pp. 827–831. ISBN 978-0-273-75356-8.

[3] Greene, William H. (2012). Análisis econométrico (séptima edición). Boston: Pearson Education. pp. 824–827. ISBN 978-0-273-75356-8.

[4] Greene, William H.; Hensher, David A. (8 de abril de 2010). Modelado de elecciones ordenadas: una introducción. Cambridge University Press. ISBN 978-1-139-48595-1.

[5] 'Olio, Luigi; Ibeas, Angel; Cecín, Patricia (2010-11-01). "Modelización de la percepción de los usuarios sobre la calidad del transporte público en autobús". Política de transporte . 17 (6): 388–397. doi :10.1016/j.tranpol.2010.04.006. ISSN 0967-070X.

[6] Katahira, Hotaka (febrero de 1990). "Mapeo perceptual mediante análisis logit ordenado". Marketing Science . 9 (1): 1–17. doi :10.1287/mksc.9.1.1. ISSN 0732-2399.

[7] Lovreglio, Ruggiero; Kuligowski, Erica; Walpole, Emily; Link, Eric; Gwynne, Steve (1 de noviembre de 2020). "Calibración del modelo de decisión sobre incendios forestales mediante el uso de modelos de elección híbridos". Revista internacional de reducción del riesgo de desastres . 50 : 101770. doi : 10.1016/j.ijdrr.2020.101770 . ISSN 2212-4209.

[Liddell-8] Liddell, T; Kruschke, J (2018). "Análisis de datos ordinales con modelos métricos: ¿Qué podría salir mal?" (PDF) . Revista de Psicología Social Experimental . 79 : 328–348. doi :10.1016/j.jesp.2018.08.009.