Parte de una serie sobre |
Análisis de regresión |
---|
Modelos |
Estimación |
Background |
En estadística , el modelo logit ordenado (también regresión logística ordenada o modelo de probabilidades proporcionales ) es un modelo de regresión ordinal , es decir, un modelo de regresión para variables dependientes ordinales , considerado por primera vez por Peter McCullagh . [1] Por ejemplo, si una pregunta en una encuesta debe responderse con una elección entre "malo", "regular", "bueno", "muy bueno" y "excelente" , y el propósito del análisis es ver qué tan bien se puede predecir esa respuesta a partir de las respuestas a otras preguntas, algunas de las cuales pueden ser cuantitativas, entonces se puede utilizar la regresión logística ordenada. Puede considerarse como una extensión del modelo de regresión logística que se aplica a variables dependientes dicotómicas , lo que permite más de dos categorías de respuesta (ordenadas).
El modelo sólo se aplica a los datos que cumplen con el supuesto de probabilidades proporcionales , cuyo significado se puede ejemplificar de la siguiente manera. Supongamos que hay cinco resultados: "malo", "regular", "bueno", "muy bueno" y "excelente". Suponemos que las probabilidades de estos resultados están dadas por p 1 ( x ), p 2 ( x ), p 3 ( x ), p 4 ( x ), p 5 ( x ), todas las cuales son funciones de alguna variable independiente x . Entonces, para un valor fijo de x, los logaritmos de las probabilidades (no los logaritmos de las probabilidades) de responder de ciertas maneras son:
El supuesto de probabilidades proporcionales establece que los números que se suman a cada uno de estos logaritmos para obtener el siguiente son los mismos independientemente de x . En otras palabras, la diferencia entre el logaritmo de las probabilidades de tener una salud mala o regular menos el logaritmo de las probabilidades de tener una salud mala es la misma independientemente de x ; de manera similar, el logaritmo de las probabilidades de tener una salud mala, regular o buena menos el logaritmo de las probabilidades de tener una salud mala o regular es el mismo independientemente de x ; etc. [2]
Entre los ejemplos de categorías de respuesta de orden múltiple se incluyen las calificaciones de bonos, las encuestas de opinión con respuestas que van desde "totalmente de acuerdo" a "totalmente en desacuerdo", los niveles de gasto estatal en programas gubernamentales (alto, medio o bajo), el nivel de cobertura de seguro elegido (ninguno, parcial o completo) y la situación laboral (no empleado, empleado a tiempo parcial o empleado a tiempo completo). [3]
El logit ordenado se puede derivar de un modelo de variable latente, similar a aquel del que se puede derivar la regresión logística binaria . Supongamos que el proceso subyacente que se va a caracterizar es
donde es una variable dependiente no observada (quizás el nivel exacto de acuerdo con la afirmación propuesta por el encuestador); es el vector de variables independientes; es el término de error , que se supone que sigue una distribución logística estándar; y es el vector de coeficientes de regresión que deseamos estimar. Supongamos además que, si bien no podemos observar , en cambio solo podemos observar las categorías de respuesta.
donde los parámetros son los puntos finales impuestos externamente de las categorías observables. Luego, la técnica logit ordenada utilizará las observaciones en y , que son una forma de datos censurados en y* , para ajustar el vector de parámetros .
Como es habitual, la estimación de máxima verosimilitud o la inferencia bayesiana son las formas más comunes de ajustar parámetros para dicho modelo. [4] Los parámetros estimados indican la dirección y la magnitud del efecto de cada variable independiente sobre la probabilidad de que la variable dependiente caiga en una categoría superior o inferior.
Las regresiones logísticas ordenadas se han utilizado en múltiples campos, como el transporte, [5] el marketing [6] o la gestión de desastres. [7]
En la investigación clínica , el efecto que un fármaco puede tener en un paciente se puede modelar con regresión ordinal. Las variables independientes pueden incluir el uso o no uso del fármaco, así como variables de control como datos demográficos y detalles del historial médico. La variable dependiente podría clasificarse en la siguiente lista: curación completa, mejoría de los síntomas, ausencia de cambios, empeoramiento de los síntomas o muerte. [ cita requerida ]
Otro ejemplo de aplicación son los ítems tipo Likert que se emplean habitualmente en las encuestas, en las que los encuestados califican su grado de acuerdo en una escala ordenada (por ejemplo, de “Totalmente en desacuerdo” a “Totalmente de acuerdo”). El modelo probit ordenado proporciona un ajuste adecuado a estos datos, preservando el orden de las opciones de respuesta sin hacer suposiciones sobre las distancias de intervalo entre las opciones. [8]