Teoría de la respuesta al ítem

Paradigma para el diseño, análisis y calificación de pruebas

En psicometría , la teoría de respuesta al ítem ( TRI ) (también conocida como teoría de rasgos latentes , teoría de puntaje verdadero fuerte o teoría moderna de pruebas mentales ) es un paradigma para el diseño, análisis y puntuación de pruebas , cuestionarios e instrumentos similares que miden habilidades, actitudes u otras variables. Es una teoría de pruebas basada en la relación entre el desempeño de los individuos en un ítem de prueba y los niveles de desempeño de los examinados en una medida general de la habilidad que ese ítem fue diseñado para medir. Se utilizan varios modelos estadísticos diferentes para representar tanto las características del ítem como las del examinado. [1] A diferencia de alternativas más simples para crear escalas y evaluar las respuestas del cuestionario, no asume que cada ítem sea igualmente difícil. Esto distingue a la TRI de, por ejemplo, la escala Likert , en la que " se supone que todos los ítems son réplicas entre sí o, en otras palabras, los ítems se consideran instrumentos paralelos". [2] Por el contrario, la teoría de respuesta al ítem trata la dificultad de cada ítem (las curvas características del ítem o ICC) como información que se debe incorporar en los ítems de escala.

Se basa en la aplicación de modelos matemáticos relacionados a los datos de prueba . Debido a que a menudo se considera superior a la teoría clásica de pruebas , [3] es el método preferido para desarrollar escalas en los Estados Unidos, [ cita requerida ] especialmente cuando se exigen decisiones óptimas, como en las llamadas pruebas de alto riesgo , por ejemplo, el Graduate Record Examination (GRE) y el Graduate Management Admission Test (GMAT).

El nombre de teoría de respuesta al ítem se debe al enfoque de la teoría en el ítem, en contraposición al enfoque a nivel de prueba de la teoría clásica de las pruebas. Por lo tanto, la TRI modela la respuesta de cada examinado de una habilidad dada a cada ítem de la prueba. El término ítem es genérico y abarca todo tipo de ítems informativos. Pueden ser preguntas de opción múltiple que tienen respuestas incorrectas y correctas, pero también son comúnmente afirmaciones en cuestionarios que permiten a los encuestados indicar el nivel de acuerdo (una calificación o escala de Likert ), o síntomas del paciente puntuados como presentes/ausentes, o información diagnóstica en sistemas complejos.

La IRT se basa en la idea de que la probabilidad de una respuesta correcta/teclear a un ítem es una función matemática de los parámetros de la persona y del ítem . (La expresión "una función matemática de los parámetros de la persona y del ítem" es análoga a la ecuación de Lewin , B = f(P, E) , que afirma que el comportamiento es una función de la persona en su entorno). El parámetro de la persona se interpreta como (normalmente) un rasgo o dimensión latente único. Los ejemplos incluyen la inteligencia general o la fuerza de una actitud. Los parámetros en los que se caracterizan los ítems incluyen su dificultad (conocida como "ubicación" por su ubicación en el rango de dificultad); discriminación (pendiente o correlación), que representa cuán pronunciadamente varía la tasa de éxito de los individuos con su capacidad; y un parámetro de pseudoadivinación, que caracteriza la asíntota (inferior) en la que incluso las personas menos capaces puntuarán debido a la adivinación (por ejemplo, 25% para una pura casualidad en un ítem de opción múltiple con cuatro posibles respuestas).

De la misma manera, la TRI puede utilizarse para medir el comportamiento humano en las redes sociales en línea. Las opiniones expresadas por diferentes personas pueden agregarse para ser estudiadas mediante la TRI. También se ha evaluado su uso para clasificar la información como información falsa o información verdadera.

Descripción general

El concepto de la función de respuesta al ítem existía antes de 1950. El trabajo pionero de la IRT como teoría ocurrió durante los años 1950 y 1960. Tres de los pioneros fueron el psicometrista del Educational Testing Service Frederic M. Lord , [4] el matemático danés Georg Rasch y el sociólogo austríaco Paul Lazarsfeld , quienes llevaron a cabo investigaciones paralelas de forma independiente. Las figuras clave que impulsaron el progreso de la IRT incluyen a Benjamin Drake Wright y David Andrich . La IRT no se generalizó hasta finales de los años 1970 y 1980, cuando a los profesionales se les dijo la "utilidad" y las "ventajas" de la IRT por un lado, y las computadoras personales dieron a muchos investigadores acceso a la potencia informática necesaria para la IRT por el otro. En la década de 1990, Margaret Wu desarrolló dos programas de software de respuesta al ítem que analizan los datos de PISA y TIMSS; ACER ConQuest (1998) y el paquete R TAM (2010).

Entre otras cosas, el propósito de la TRI es proporcionar un marco para evaluar el funcionamiento de las evaluaciones y de los ítems individuales de las evaluaciones. La aplicación más común de la TRI es en educación, donde los psicometristas la utilizan para desarrollar y diseñar exámenes , mantener bancos de ítems para exámenes y equiparar las dificultades de los ítems para versiones sucesivas de exámenes (por ejemplo, para permitir comparaciones entre resultados a lo largo del tiempo). [5]

Los modelos de IRT se denominan a menudo modelos de rasgos latentes . El término latente se utiliza para enfatizar que las respuestas discretas a los ítems se consideran manifestaciones observables de rasgos, constructos o atributos hipotéticos, no observados directamente, pero que deben inferirse a partir de las respuestas manifiestas. Los modelos de rasgos latentes se desarrollaron en el campo de la sociología, pero son prácticamente idénticos a los modelos de IRT.

En general, se afirma que la IRT es una mejora con respecto a la teoría clásica de pruebas (CTT). Para las tareas que se pueden realizar utilizando CTT, la IRT generalmente brinda mayor flexibilidad y proporciona información más sofisticada. Algunas aplicaciones, como las pruebas adaptativas computarizadas , son posibles gracias a la IRT y no se pueden realizar razonablemente utilizando solo la teoría clásica de pruebas. Otra ventaja de la IRT con respecto a la CTT es que la información más sofisticada que proporciona la IRT permite a un investigador mejorar la confiabilidad de una evaluación .

La TRI implica tres supuestos:

  1. Un rasgo unidimensional denotado por  ; θ {\displaystyle {\theta}}
  2. Independencia local de los artículos;
  3. La respuesta de una persona a un elemento se puede modelar mediante una función de respuesta al elemento (FRI) matemática.

Se supone además que el rasgo es medible en una escala (la mera existencia de una prueba supone esto), normalmente establecida en una escala estándar con una media de 0,0 y una desviación estándar de 1,0. La unidimensionalidad debe interpretarse como homogeneidad, una cualidad que debe definirse o demostrarse empíricamente en relación con un propósito o uso determinado, pero no una cantidad que pueda medirse. "Independencia local" significa (a) que la probabilidad de que se utilice un elemento no está relacionada con el uso de ningún otro elemento y (b) que la respuesta a un elemento es una decisión independiente de cada uno de los examinados, es decir, no hay trampas ni trabajo en parejas o en grupo. El tema de la dimensionalidad a menudo se investiga con el análisis factorial , mientras que el IRF es el componente básico de la IRT y es el centro de gran parte de la investigación y la literatura.

La función de respuesta del elemento

El IRF indica la probabilidad de que una persona con un determinado nivel de habilidad responda correctamente. Las personas con menor habilidad tienen menos posibilidades, mientras que las personas con mayor habilidad tienen muchas probabilidades de responder correctamente; por ejemplo, los estudiantes con mayor habilidad matemática tienen más probabilidades de responder correctamente una pregunta de matemáticas. El valor exacto de la probabilidad depende, además de la habilidad, de un conjunto de parámetros de preguntas para el IRF.

Modelo logístico de tres parámetros

Figura 1: Ejemplo de IRF 3PL, con líneas de puntos superpuestas para demostrar los parámetros.

Por ejemplo, en el modelo logístico de tres parámetros ( 3PL ), la probabilidad de una respuesta correcta a un ítem dicotómico i , generalmente una pregunta de opción múltiple, es:

pag i ( θ ) = do i + 1 do i 1 + mi a i ( θ b i ) {\displaystyle p_{i}({\theta })=c_{i}+{\frac {1-c_{i}}{1+e^{-a_{i}({\theta }-b_{i})}}}}

donde indica que las capacidades de la persona se modelan como una muestra de una distribución normal con el fin de estimar los parámetros del ítem. Una vez que se han estimado los parámetros del ítem, se estiman las capacidades de las personas individuales con fines de presentación de informes. , y son los parámetros del ítem. Los parámetros del ítem determinan la forma del IRF. La Figura 1 representa un ICC 3PL ideal. θ {\displaystyle {\theta}} a i Estilo de visualización ai b i Estilo de visualización b_{i} do i Estilo de visualización c_{i}}

Los parámetros del artículo se pueden interpretar como un cambio en la forma de la función logística estándar :

PAG ( a ) = 1 1 + mi a . {\displaystyle P(t)={\frac {1}{1+e^{-t}}}.}

En resumen, los parámetros se interpretan de la siguiente manera (eliminando los subíndices para facilitar su lectura); b es el más básico, por lo que se enumera primero:

  • b – dificultad, ubicación del elemento: el punto medio entre (mín.) y 1 (máx.), también donde se maximiza la pendiente. pag ( b ) = ( 1 + do ) / 2 , {\displaystyle p(b)=(1+c)/2,} do i Estilo de visualización c_{i}}
  • a – discriminación, escala, pendiente: la pendiente máxima pag " ( b ) = a ( 1 do ) / 4. {\displaystyle p'(b)=a\cdot (1-c)/4.}
  • c – pseudo-conjetura, azar, mínimo asintótico pag ( ) = do . {\displaystyle p(-\infty )=c.}

Si entonces estos se simplifican a y lo que significa que b es igual al nivel de éxito del 50% (dificultad), y a (dividido por cuatro) es la pendiente máxima (discriminación), que ocurre en el nivel de éxito del 50%. Además, el logit (logaritmo de probabilidades ) de una respuesta correcta es (asumiendo ): en particular, si la habilidad θ es igual a la dificultad b, hay probabilidades iguales (1:1, por lo que logit 0) de una respuesta correcta, cuanto mayor sea la habilidad por encima (o por debajo) de la dificultad, más (o menos) probable es una respuesta correcta, y la discriminación a determina qué tan rápido aumentan o disminuyen las probabilidades con la habilidad. do = 0 , {\displaystyle c=0,} pag ( b ) = 1 / 2 {\displaystyle p(b)=1/2} pag " ( b ) = a / 4 , {\displaystyle p'(b)=a/4,} a ( θ b ) {\displaystyle a(\theta -b)} do = 0 {\estilo de visualización c=0}

En otras palabras, la función logística estándar tiene un mínimo asintótico de 0 ( ), está centrada alrededor de 0 ( , ) y tiene una pendiente máxima. El parámetro estira la escala horizontal, el parámetro desplaza la escala horizontal y el parámetro comprime la escala vertical de a Esto se explica a continuación. do = 0 {\estilo de visualización c=0} b = 0 {\estilo de visualización b=0} PAG ( 0 ) = 1 / 2 {\displaystyle P(0)=1/2} PAG " ( 0 ) = 1 / 4. {\displaystyle P'(0)=1/4.} a {\estilo de visualización a} b {\estilo de visualización b} do {\estilo de visualización c} [ 0 , 1 ] {\estilo de visualización [0,1]} [ do , 1 ] . {\estilo de visualización [c,1].}

El parámetro representa la ubicación del ítem, que en el caso de las pruebas de rendimiento se denomina dificultad del ítem. Es el punto en el que el IRF tiene su pendiente máxima y donde el valor está a mitad de camino entre el valor mínimo de y el valor máximo de 1. El ítem del ejemplo es de dificultad media ya que = 0,0, que está cerca del centro de la distribución. Nótese que este modelo escala la dificultad del ítem y el rasgo de la persona en el mismo continuo. Por lo tanto, es válido hablar de que un ítem es aproximadamente tan difícil como el nivel de rasgo de la Persona A o de que el nivel de rasgo de una persona es aproximadamente igual a la dificultad del Ítem Y, en el sentido de que el desempeño exitoso de la tarea involucrada con un ítem refleja un nivel específico de habilidad. b i Estilo de visualización b_{i} θ {\displaystyle {\theta}} do i Estilo de visualización c_{i}} b i Estilo de visualización b_{i}

El parámetro del ítem representa la discriminación del ítem: es decir, el grado en el que el ítem discrimina entre personas en diferentes regiones del continuo latente. Este parámetro caracteriza la pendiente del IRF donde la pendiente es máxima. El ítem del ejemplo tiene =1,0, lo que discrimina bastante bien; las personas con baja capacidad tienen de hecho una probabilidad mucho menor de responder correctamente que las personas con mayor capacidad. Este parámetro de discriminación corresponde al coeficiente de ponderación del ítem o indicador respectivo en una regresión lineal ponderada estándar (Mínimos Cuadrados Ordinarios, MCO ) y, por lo tanto, se puede utilizar para crear un índice ponderado de indicadores para la medición no supervisada de un concepto latente subyacente. a i Estilo de visualización ai a i Estilo de visualización ai

En el caso de ítems como los de opción múltiple , el parámetro se utiliza para intentar explicar los efectos de adivinar sobre la probabilidad de una respuesta correcta. Indica la probabilidad de que individuos con habilidades muy bajas respondan correctamente este ítem por casualidad, representada matemáticamente como una asíntota inferior . Un ítem de opción múltiple de cuatro opciones podría tener una IRF como el ítem del ejemplo; hay una probabilidad de 1/4 de que un candidato con habilidades extremadamente bajas adivine la respuesta correcta, por lo que sería aproximadamente 0,25. Este enfoque supone que todas las opciones son igualmente plausibles, porque si una opción no tuviera sentido, incluso la persona con la habilidad más baja podría descartarla, por lo que los métodos de estimación de parámetros IRT tienen esto en cuenta y estiman una en función de los datos observados. [6] do i Estilo de visualización c_{i}} do i Estilo de visualización c_{i}} do i Estilo de visualización c_{i}}

Modelos IRT

En términos generales, los modelos de IRT se pueden dividir en dos familias: unidimensionales y multidimensionales. Los modelos unidimensionales requieren una única dimensión de rasgo (capacidad) . Los modelos de IRT multidimensionales modelan datos de respuesta que se supone que surgen de múltiples rasgos. Sin embargo, debido a la gran complejidad, la mayoría de las investigaciones y aplicaciones de IRT utilizan un modelo unidimensional. θ {\displaystyle {\theta}}

Los modelos de IRT también pueden clasificarse en función del número de respuestas puntuadas. El elemento típico de opción múltiple es dicotómico ; aunque puede haber cuatro o cinco opciones, todavía se puntúa solo como correcto/incorrecto (correcto/incorrecto). Otra clase de modelos se aplica a los resultados politómicos , donde cada respuesta tiene un valor de puntuación diferente. [7] [8] Un ejemplo común de esto son los elementos de tipo Likert , por ejemplo, "Califique en una escala de 1 a 5". Otro ejemplo es la puntuación de crédito parcial, a la que se pueden aplicar modelos como el modelo de Rasch politómico .

Número de parámetros IRT

Los modelos IRT dicotómicos se describen por el número de parámetros que utilizan. [9] El 3PL se llama así porque emplea tres parámetros de ítem. El modelo de dos parámetros (2PL) supone que los datos no tienen conjeturas, pero que los ítems pueden variar en términos de ubicación ( ) y discriminación ( ). El modelo de un parámetro (1PL) supone que las conjeturas son parte de la habilidad y que todos los ítems que se ajustan al modelo tienen discriminaciones equivalentes, de modo que los ítems solo se describen por un único parámetro ( ). Esto da como resultado modelos de un parámetro que tienen la propiedad de objetividad específica, lo que significa que el rango de la dificultad del ítem es el mismo para todos los encuestados independientemente de la habilidad, y que el rango de la habilidad de la persona es el mismo para los ítems independientemente de la dificultad. Por lo tanto, los modelos de 1 parámetro son independientes de la muestra, una propiedad que no se cumple para los modelos de dos y tres parámetros. Además, teóricamente existe un modelo de cuatro parámetros (4PL), con una asíntota superior , denotada por donde en el 3PL se reemplaza por . Sin embargo, esto rara vez se utiliza. Nótese que el orden alfabético de los parámetros de los ítems no coincide con su importancia práctica o psicométrica; el parámetro de ubicación/dificultad ( ) es claramente el más importante porque está incluido en los tres modelos. El 1PL utiliza solo , el 2PL utiliza y , el 3PL agrega , y el 4PL agrega . b i Estilo de visualización b_{i} a i Estilo de visualización ai b i Estilo de visualización b_{i} d i , estilo de visualización d_{i},} 1 do i {\displaystyle 1-c_{i}} d i do i Estilo de visualización: d_{i}-c_{i} b i Estilo de visualización b_{i} b i Estilo de visualización b_{i} b i Estilo de visualización b_{i} a i Estilo de visualización ai do i Estilo de visualización c_{i}} d i estilo de visualización d_{i}}

El modelo 2PL es equivalente al modelo 3PL con , y es apropiado para probar ítems en los que adivinar la respuesta correcta es muy poco probable, como ítems que requieren completar espacios en blanco ("¿Cuál es la raíz cuadrada de 121?"), o donde el concepto de adivinar no se aplica, como ítems de personalidad, actitud o interés (por ejemplo, "Me gustan los musicales de Broadway. Estoy de acuerdo/en desacuerdo"). do i = 0 {\displaystyle c_{i}=0}

El modelo 1PL no solo supone que no hay conjeturas (o que son irrelevantes), sino que todos los elementos son equivalentes en términos de discriminación, de manera análoga a un análisis factorial común con cargas idénticas para todos los elementos. Los elementos individuales o los individuos pueden tener factores secundarios, pero se supone que estos son mutuamente independientes y colectivamente ortogonales .

Modelos IRT logísticos y normales

Una formulación alternativa construye los IRF basados ​​en la distribución de probabilidad normal; a veces se los llama modelos de ojiva normal . Por ejemplo, la fórmula para un IRF de ojiva normal de dos parámetros es:

pag i ( θ ) = Φ ( θ b i σ i ) {\displaystyle p_{i}(\theta )=\Phi \left({\frac {\theta -b_{i}}{\sigma _{i}}}\right)}

donde Φ es la función de distribución acumulativa (CDF) de la distribución normal estándar.

El modelo de ojiva normal se deriva del supuesto de que el error de medición se distribuye normalmente y es teóricamente atractivo sobre esa base. Aquí está, nuevamente, el parámetro de dificultad. El parámetro de discriminación es , la desviación estándar del error de medición para el elemento i , y comparable a 1/ . b i Estilo de visualización b_{i} σ i {\displaystyle {\sigma }_{i}} a i Estilo de visualización ai

Se puede estimar un modelo de rasgo latente de ojiva normal mediante el análisis factorial de una matriz de correlaciones tetracóricas entre elementos. [10] Esto significa que es técnicamente posible estimar un modelo IRT simple utilizando un software estadístico de propósito general.

Con el reescalado del parámetro de capacidad, es posible hacer que el modelo logístico 2PL se aproxime a la ojiva normal acumulativa . [11] Normalmente, las IRF logísticas 2PL y de ojiva normal difieren en probabilidad en no más de 0,01 en todo el rango de la función. Sin embargo, la diferencia es mayor en las colas de distribución, que tienden a tener más influencia en los resultados.

El modelo de rasgo latente/IRT se desarrolló originalmente utilizando ojivas normales, pero se consideró que esto demandaba demasiado trabajo computacional para las computadoras de la época (década de 1960). El modelo logístico se propuso como una alternativa más simple y ha disfrutado de un amplio uso desde entonces. Sin embargo, más recientemente se demostró que, utilizando aproximaciones polinómicas estándar a la CDF normal , [12] el modelo de ojiva normal no es más exigente computacionalmente que los modelos logísticos. [13]

El modelo de Rasch

El modelo de Rasch se considera a menudo el modelo IRT 1PL. Sin embargo, los defensores del modelado de Rasch prefieren verlo como un enfoque completamente diferente para conceptualizar la relación entre los datos y la teoría. [14] Al igual que otros enfoques de modelado estadístico, IRT enfatiza la primacía del ajuste de un modelo a los datos observados, [15] mientras que el modelo de Rasch enfatiza la primacía de los requisitos para la medición fundamental, siendo el ajuste adecuado de los datos al modelo un requisito importante pero secundario que debe cumplirse antes de que se pueda afirmar que una prueba o un instrumento de investigación mide un rasgo. [16] Operativamente, esto significa que los enfoques IRT incluyen parámetros de modelo adicionales para reflejar los patrones observados en los datos (por ejemplo, permitiendo que los elementos varíen en su correlación con el rasgo latente), mientras que en el enfoque de Rasch, las afirmaciones sobre la presencia de un rasgo latente solo pueden considerarse válidas cuando (a) los datos se ajustan al modelo de Rasch y (b) los elementos de prueba y los examinados se ajustan al modelo. Por lo tanto, según los modelos de Rasch, las respuestas inadecuadas requieren un diagnóstico de la razón de la inadecuación y pueden excluirse del conjunto de datos si se puede explicar sustancialmente por qué no abordan el rasgo latente. [17] Por lo tanto, el enfoque de Rasch puede considerarse un enfoque confirmatorio, a diferencia de los enfoques exploratorios que intentan modelar los datos observados.

La presencia o ausencia de un parámetro de conjetura o pseudo-azar es una distinción importante y a veces controvertida. El enfoque IRT incluye un parámetro de asíntota izquierda para tener en cuenta la conjetura en los exámenes de opción múltiple , mientras que el modelo de Rasch no lo hace porque se supone que la conjetura agrega ruido distribuido aleatoriamente a los datos. Como el ruido se distribuye aleatoriamente, se supone que, siempre que se prueben suficientes ítems, el orden de clasificación de las personas a lo largo del rasgo latente por puntaje bruto no cambiará, sino que simplemente experimentará un reescalamiento lineal. Por el contrario, el IRT de tres parámetros logra el ajuste del modelo de datos seleccionando un modelo que se ajuste a los datos, [18] a expensas de sacrificar la objetividad específica.

En la práctica, el modelo de Rasch tiene al menos dos ventajas principales en comparación con el enfoque de la TRI. La primera ventaja es la primacía de los requisitos específicos de Rasch [19] , que (cuando se cumplen) proporcionan una medición fundamental sin personas (donde las personas y los elementos pueden mapearse en la misma escala invariante). [20] Otra ventaja del enfoque de Rasch es que la estimación de parámetros es más sencilla en los modelos de Rasch debido a la presencia de estadísticas suficientes, lo que en esta aplicación significa un mapeo uno a uno de las puntuaciones correctas de los números brutos a las estimaciones de Rasch. [21] θ {\displaystyle {\theta}}

Análisis del ajuste del modelo

Al igual que con cualquier uso de modelos matemáticos, es importante evaluar el ajuste de los datos al modelo. Si se diagnostica que un ítem no se ajusta a un modelo debido a una mala calidad del ítem, por ejemplo, distractores confusos en una prueba de opción múltiple, entonces los ítems pueden eliminarse de esa prueba y reescribirse o reemplazarse en futuras pruebas. Sin embargo, si hay una gran cantidad de ítems que no se ajustan sin una razón aparente para ello, será necesario reconsiderar la validez del constructo de la prueba y tal vez sea necesario reescribir las especificaciones de la prueba. Por lo tanto, el desajuste proporciona herramientas de diagnóstico invaluables para los desarrolladores de pruebas, lo que permite que las hipótesis en las que se basan las especificaciones de la prueba se prueben empíricamente con los datos.

Existen varios métodos para evaluar el ajuste, como la estadística de Chi-cuadrado o una versión estandarizada de esta. Los modelos IRT de dos y tres parámetros ajustan la discriminación de ítems, lo que garantiza un mejor ajuste del modelo de datos, por lo que las estadísticas de ajuste carecen del valor diagnóstico confirmatorio que se encuentra en los modelos de un parámetro, donde el modelo idealizado se especifica de antemano.

Los datos no deben eliminarse por no ajustarse al modelo, sino porque se ha diagnosticado una razón relevante para el constructo que explica el desajuste, como por ejemplo, un hablante no nativo de inglés que realiza un examen de ciencias escrito en inglés. Se puede argumentar que un candidato de este tipo no pertenece a la misma población de personas dependiendo de la dimensionalidad de la prueba y, aunque se argumenta que las medidas de IRT de un parámetro son independientes de la muestra, no son independientes de la población, por lo que un desajuste como este es relevante para el constructo y no invalida la prueba ni el modelo. Este enfoque es una herramienta esencial en la validación de instrumentos. En los modelos de dos y tres parámetros, donde el modelo psicométrico se ajusta para ajustarse a los datos, las futuras administraciones de la prueba deben verificarse para comprobar que se ajustan al mismo modelo utilizado en la validación inicial a fin de confirmar la hipótesis de que las puntuaciones de cada administración se generalizan a otras administraciones. Si se especifica un modelo diferente para cada administración a fin de lograr el ajuste al modelo de datos, entonces se está midiendo un rasgo latente diferente y no se puede argumentar que las puntuaciones de la prueba sean comparables entre administraciones.

Información

Una de las principales contribuciones de la teoría de respuesta al ítem es la extensión del concepto de confiabilidad . Tradicionalmente, la confiabilidad se refiere a la precisión de la medición (es decir, el grado en que la medición está libre de error). Tradicionalmente, se mide utilizando un único índice definido de diversas maneras, como la relación entre la varianza de la puntuación verdadera y la observada. Este índice es útil para caracterizar la confiabilidad promedio de una prueba, por ejemplo, para comparar dos pruebas. Pero la TRI deja en claro que la precisión no es uniforme en todo el rango de puntuaciones de la prueba. Las puntuaciones en los extremos del rango de la prueba, por ejemplo, generalmente tienen más error asociado con ellas que las puntuaciones más cercanas a la mitad del rango.

La teoría de la respuesta a los ítems avanza el concepto de información de los ítems y de las pruebas para reemplazar la confiabilidad. La información también es una función de los parámetros del modelo. Por ejemplo, según la teoría de la información de Fisher , la información de los ítems suministrada en el caso del 1PL para los datos de respuesta dicotómica es simplemente la probabilidad de una respuesta correcta multiplicada por la probabilidad de una respuesta incorrecta, o,

I ( θ ) = pag i ( θ ) q i ( θ ) . {\displaystyle I(\theta )=p_{i}(\theta )q_{i}(\theta ).\,}

El error estándar de estimación (EE) es el recíproco de la información de prueba de un nivel de rasgo dado, es el

SE ( θ ) = 1 I ( θ ) . {\displaystyle {\text{SE}}(\theta )={\frac {1}{\sqrt {I(\theta )}}}.}

Por lo tanto, más información implica menos error de medición.

En otros modelos, como los modelos de dos y tres parámetros, el parámetro de discriminación desempeña un papel importante en la función. La función de información del elemento para el modelo de dos parámetros es

I ( θ ) = a i 2 p i ( θ ) q i ( θ ) . {\displaystyle I(\theta )=a_{i}^{2}p_{i}(\theta )q_{i}(\theta ).\,}

La función de información del artículo para el modelo de tres parámetros es

I ( θ ) = a i 2 ( p i ( θ ) c i ) 2 ( 1 c i ) 2 q i ( θ ) p i ( θ ) . {\displaystyle I(\theta )=a_{i}^{2}{\frac {(p_{i}(\theta )-c_{i})^{2}}{(1-c_{i})^{2}}}{\frac {q_{i}(\theta )}{p_{i}(\theta )}}.} [22]

En general, las funciones de información de los ítems tienden a tener forma de campana. Los ítems con un alto grado de discriminación tienen funciones de información altas y estrechas; contribuyen en gran medida, pero en un rango estrecho. Los ítems con un grado de discriminación menor brindan menos información, pero en un rango más amplio.

Los gráficos de información de los ítems se pueden utilizar para ver cuánta información aporta un ítem y a qué parte del rango de puntuación de la escala. Debido a la independencia local, las funciones de información de los ítems son aditivas . Por lo tanto, la función de información de la prueba es simplemente la suma de las funciones de información de los ítems del examen. Al utilizar esta propiedad con un banco de ítems grande, las funciones de información de la prueba se pueden configurar para controlar el error de medición con mucha precisión.

La caracterización de la precisión de las puntuaciones de las pruebas es quizás la cuestión central de la teoría psicométrica y constituye una diferencia fundamental entre la TRI y la TTC. Los hallazgos de la TRI revelan que el concepto de fiabilidad de la TTC es una simplificación. En lugar de la fiabilidad, la TRI ofrece la función de información de la prueba que muestra el grado de precisión en diferentes valores de theta, θ.

Estos resultados permiten a los psicometristas (potencialmente) moldear cuidadosamente el nivel de confiabilidad para diferentes rangos de habilidad al incluir ítems cuidadosamente seleccionados. Por ejemplo, en una situación de certificación en la que una prueba solo puede aprobarse o reprobarse, donde solo hay una única "puntuación límite" y donde la puntuación de aprobación real no es importante, se puede desarrollar una prueba muy eficiente seleccionando solo ítems que tengan información alta cerca de la puntuación límite. Estos ítems generalmente corresponden a ítems cuya dificultad es aproximadamente la misma que la de la puntuación límite.

Tanteo

El parámetro persona representa la magnitud del rasgo latente del individuo, que es la capacidad o atributo humano medido por la prueba. [23] Puede ser una capacidad cognitiva, una capacidad física, una habilidad, un conocimiento, una actitud, una característica de personalidad, etc. θ {\displaystyle {\theta }}

La estimación del parámetro persona - la "puntuación" en una prueba con IRT - se calcula e interpreta de una manera muy diferente en comparación con las puntuaciones tradicionales como el número o el porcentaje correcto. La puntuación total del número correcto del individuo no es la puntuación real, sino que se basa en las IRF, lo que lleva a una puntuación ponderada cuando el modelo contiene parámetros de discriminación de ítems. En realidad, se obtiene multiplicando la función de respuesta del ítem para cada ítem para obtener una función de verosimilitud , cuyo punto más alto es la estimación de máxima verosimilitud de . Este punto más alto se estima típicamente con el software IRT utilizando el método Newton-Raphson . [24] Si bien la puntuación es mucho más sofisticada con IRT, para la mayoría de las pruebas, la correlación entre la estimación theta y una puntuación tradicional es muy alta; a menudo es 0,95 o más [cita?]. Un gráfico de las puntuaciones IRT contra las puntuaciones tradicionales muestra una forma de ojiva que implica que las estimaciones IRT separan a los individuos en los bordes del rango más que en el medio. θ {\displaystyle {\theta }}

Una diferencia importante entre la TCC y la TIR es el tratamiento del error de medición, indexado por el error estándar de medición . Todas las pruebas, cuestionarios e inventarios son herramientas imprecisas; nunca podemos saber la puntuación real de una persona , sino que solo tenemos una estimación, la puntuación observada. Existe una cierta cantidad de error aleatorio que puede hacer que la puntuación observada sea mayor o menor que la puntuación real. La TCC supone que la cantidad de error es la misma para cada examinado, pero la TIR permite que varíe. [25]

Además, nada en la TRI refuta el desarrollo o la mejora humana ni presupone que un nivel de rasgo sea fijo. Una persona puede aprender habilidades, conocimientos o incluso las llamadas "habilidades para realizar exámenes" que pueden traducirse en una puntuación real más alta. De hecho, una parte de la investigación de la TRI se centra en la medición del cambio en el nivel de rasgo. [26]

Una comparación entre las teorías clásicas y de respuesta al ítem

La teoría clásica de pruebas (TCP) y la teoría de pruebas independientes (TRI) se ocupan en gran medida de los mismos problemas, pero son cuerpos teóricos diferentes y requieren métodos diferentes. Aunque los dos paradigmas son generalmente coherentes y complementarios, existen varios puntos de diferencia:

  • La IRT parte de supuestos más sólidos que la CTT y, en muchos casos, proporciona resultados correspondientemente más sólidos; principalmente, caracterizaciones del error. Por supuesto, estos resultados solo se mantienen cuando los supuestos de los modelos IRT se cumplen en la práctica.
  • Aunque los resultados de la CTT han permitido obtener resultados prácticos importantes, la naturaleza basada en modelos de la IRT ofrece muchas ventajas sobre los hallazgos análogos de la CTT.
  • Los procedimientos de calificación de pruebas CTT tienen la ventaja de ser simples de calcular (y de explicar), mientras que la calificación IRT generalmente requiere procedimientos de estimación relativamente complejos.
  • La IRT ofrece varias mejoras en la escalabilidad de elementos y personas. Los detalles dependen del modelo de IRT, pero la mayoría de los modelos escalan la dificultad de los elementos y la capacidad de las personas en la misma métrica. De este modo, la dificultad de un elemento y la capacidad de una persona se pueden comparar de forma significativa.
  • Otra mejora que aporta la IRT es que los parámetros de los modelos de IRT no suelen depender de la muestra o de la prueba, mientras que la puntuación real se define en la CTT en el contexto de una prueba específica. Por tanto, la IRT proporciona una flexibilidad significativamente mayor en situaciones en las que se utilizan diferentes muestras o formas de prueba. Estos hallazgos de la IRT son fundamentales para las pruebas adaptativas informatizadas.

También vale la pena mencionar algunas similitudes específicas entre CTT e IRT que ayudan a entender la correspondencia entre conceptos. En primer lugar, Lord [27] demostró que bajo el supuesto de que se distribuye normalmente, la discriminación en el modelo 2PL es aproximadamente una función monótona de la correlación biserial puntual . En particular: θ {\displaystyle \theta }

a i ρ i t 1 ρ i t 2 {\displaystyle a_{i}\cong {\frac {\rho _{it}}{\sqrt {1-\rho _{it}^{2}}}}}

donde es la correlación biserial puntual del elemento i . Por lo tanto, si se cumple el supuesto, donde hay una mayor discriminación generalmente habrá una correlación biserial puntual más alta. ρ i t {\displaystyle \rho _{it}}

Otra similitud es que, si bien la IRT proporciona un error estándar de cada estimación y una función de información, también es posible obtener un índice para una prueba en su conjunto que es directamente análogo al alfa de Cronbach , llamado índice de separación . Para ello, es necesario comenzar con una descomposición de una estimación de la IRT en una ubicación y un error verdaderos, de manera análoga a la descomposición de una puntuación observada en una puntuación y un error verdaderos en la CTT. Sea

θ ^ = θ + ϵ {\displaystyle {\hat {\theta }}=\theta +\epsilon }

donde es la ubicación verdadera y es la asociación de error con una estimación. Entonces es una estimación de la desviación estándar de para una persona con una puntuación ponderada dada y el índice de separación se obtiene de la siguiente manera θ {\displaystyle \theta } ϵ {\displaystyle \epsilon } SE ( θ ) {\displaystyle {\mbox{SE}}({\theta })} ϵ {\displaystyle \epsilon }

R θ = var [ θ ] var [ θ ^ ] = var [ θ ^ ] var [ ϵ ] var [ θ ^ ] {\displaystyle R_{\theta }={\frac {{\text{var}}[\theta ]}{{\text{var}}[{\hat {\theta }}]}}={\frac {{\text{var}}[{\hat {\theta }}]-{\text{var}}[\epsilon ]}{{\text{var}}[{\hat {\theta }}]}}}

donde el error estándar cuadrático medio de la estimación de la persona da una estimación de la varianza de los errores, , entre personas. Los errores estándar se producen normalmente como un subproducto del proceso de estimación. El índice de separación suele tener un valor muy cercano al alfa de Cronbach. [28] ϵ n {\displaystyle \epsilon _{n}}

A la IRT se la denomina a veces teoría de la puntuación verdadera fuerte o teoría moderna de las pruebas mentales porque es un cuerpo teórico más reciente y hace más explícitas las hipótesis implícitas en la CTT.

Implementación

Las implementaciones de diferentes variaciones de la teoría de respuesta a los ítems están disponibles en muchos programas y lenguajes estadísticos diferentes, incluido el lenguaje de programación R , [29] [30] [31] y Python . [32]

Véase también

Referencias

  1. ^ "Glosario de términos importantes de evaluación y medición". Consejo Nacional de Medición en Educación . Archivado desde el original el 22 de julio de 2017.
  2. ^ A. van Alphen, R. Halfens, A. Hasman y T. Imbos. (1994). ¿Likert o Rasch? Nada es más aplicable que una buena teoría. Journal of Advanced Nursing . 20 , 196-201.
  3. ^ Embretson, Susan E.; Reise, Steven P. (2000). Teoría de la respuesta al ítem para psicólogos. Psychology Press. ISBN 9780805828191.
  4. ^ Descripción general de la investigación de ETS
  5. ^ Hambleton, RK, Swaminathan, H. y Rogers, HJ (1991). Fundamentos de la teoría de respuesta al ítem . Newbury Park, CA: Sage Press.
  6. ^ Bock, RD; Aitkin, M. (1981). "Estimación de máxima verosimilitud marginal de parámetros de ítems: aplicación de un algoritmo EM". Psychometrika . 46 (4): 443–459. doi :10.1007/BF02293801. S2CID  122123206.
  7. ^ Ostini, Remo; Nering, Michael L. (2005). Modelos de teoría de respuesta a ítems politómicos. Aplicaciones cuantitativas en las ciencias sociales. Vol. 144. SAGE. ISBN 978-0-7619-3068-6.
  8. ^ Nering, Michael L.; Ostini, Remo, eds. (2010). Manual de modelos de teoría de respuesta a ítems politómicos. Taylor & Francis. ISBN 978-0-8058-5992-8.
  9. ^ Thissen, D. y Orlando, M. (2001). Teoría de respuesta a los ítems para ítems calificados en dos categorías. En D. Thissen y Wainer, H. (Eds.), Test Scoring (pp. 73–140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
  10. ^ KG Jöreskog y D. Sörbom (1988). Manual del usuario de PRELIS 1, versión 1. Chicago: Scientific Software, Inc.
  11. ^ Camilli, Gregory (1994). "Origen de la constante de escala d = 1,7 en la teoría de respuesta al ítem". Revista de estadística educativa y conductual . 19 (3): 293–295. doi :10.3102/10769986019003293. S2CID  122401679.
  12. ^ Abramowitz M., Stegun IA (1972). Manual de funciones matemáticas . Washington DC: Oficina de Imprenta del Gobierno de los Estados Unidos.
  13. ^ Uebersax, JS (diciembre de 1999). "Análisis de clases latentes Probit con medidas de categorías dicotómicas u ordenadas: modelos de independencia/dependencia condicional". Medición psicológica aplicada . 23 (4): 283–297. doi :10.1177/01466219922031400. S2CID  120497324.
  14. ^ Andrich, D (1989), Distinciones entre supuestos y requisitos en la medición en las ciencias sociales", en Keats, JA, Taft, R., Heath, RA, Lovibond, S (Eds), Sistemas matemáticos y teóricos , Elsevier Science Publishers, Holanda Septentrional, Ámsterdam, págs. 7-16.
  15. ^ Steinberg, J. (2000). Frederic Lord, quien ideó el criterio de evaluación, muere a los 87 años. New York Times, 10 de febrero de 2000
  16. ^ Andrich, D. (enero de 2004). "Controversia y el modelo de Rasch: ¿una característica de paradigmas incompatibles?". Medical Care . 42 (1): I–7. doi :10.1097/01.mlr.0000103528.48582.7c. PMID  14707751. S2CID  23087904.
  17. ^ Smith, RM (1990). "Teoría y práctica del ajuste". Rasch Measurement Transactions . 3 (4): 78.
  18. ^ Zwick, R.; Thayer, DT; Wingersky, M. (diciembre de 1995). "Efecto de la calibración de Rasch en la capacidad y la estimación del DIF en pruebas adaptativas por ordenador". Journal of Educational Measurement . 32 (4): 341–363. doi :10.1111/j.1745-3984.1995.tb00471.x.
  19. ^ Rasch, G. (1960/1980). Probabilistic models for some intelligence and attainment tests (Modelos probabilísticos para algunas pruebas de inteligencia y logros ). (Copenhague, Instituto Danés de Investigación Educativa), edición ampliada (1980) con prólogo y epílogo de BD Wright. Chicago: The University of Chicago Press.
  20. ^ Wright, BD (1992). "TRI en la década de 1990: ¿Qué modelos funcionan mejor?". Rasch Measurement Transactions . 6 (1): 196–200.
  21. ^ Fischer, GH y Molenaar, IW (1995). Modelos de Rasch: fundamentos, desarrollos recientes y aplicaciones . Nueva York: Springer.
  22. ^ de Ayala, RJ (2009). La teoría y la práctica de la teoría de respuesta al ítem , Nueva York, NY: The Guilford Press. (6.12), p.144
  23. ^ Lazarsfeld PF y Henry NW (1968). Análisis de la estructura latente . Boston: Houghton Mifflin.
  24. ^ Thompson, NA (2009). "Estimación de la capacidad con IRT" (PDF) .
  25. ^ Kolen, Michael J.; Zeng, Lingjia; Hanson, Bradley A. (junio de 1996). "Errores estándar condicionales de medición para puntuaciones de escala utilizando IRT". Journal of Educational Measurement . 33 (2): 129–140. doi :10.1111/j.1745-3984.1996.tb00485.x.
  26. ^ Hall, LA y McDonald, JL (2000). Medición del cambio en las percepciones de los docentes sobre el impacto que el desarrollo del personal tiene en la enseñanza. Documento presentado en la Reunión Anual de la Asociación Estadounidense de Investigación Educativa (Nueva Orleans, LA, 24-28 de abril de 2000).
  27. ^ Lord, FM (1980). Aplicaciones de la teoría de respuesta a ítems a problemas prácticos de evaluación . Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
  28. ^ Andrich, D. (1982). "Un índice de separación de personas en la teoría de rasgos latentes, el índice KR.20 tradicional y el patrón de respuesta de la escala de Guttman". Investigación y perspectivas educativas . 9 : 95–104.
  29. ^ Chalmers, R. Philip (2012). "mirt: Un paquete de teoría de respuesta a ítems multidimensional para el entorno R". Journal of Statistical Software . 48 (6). doi : 10.18637/jss.v048.i06 .
  30. ^ Bürkner, Paul-Christian (2021). "Modelado bayesiano de respuesta a ítems en R con brms y Stan". Revista de software estadístico . 100 (5). doi : 10.18637/jss.v100.i05 .
  31. ^ Mair, Patrick; Rosseel, Yves; Gruber, Kathrin (15 de diciembre de 2023). "Vista de tareas de CRAN: modelos y métodos psicométricos". cran.r-project.org . Consultado el 3 de octubre de 2024 .
  32. ^ Lalor, John Patrick; Rodríguez, Pedro (enero de 2023). "py-irt: una biblioteca escalable de teoría de respuesta a ítems para Python". INFORMS Journal on Computing . 35 (1): 5–13. doi :10.1287/ijoc.2022.1250.

Lectura adicional

Se han escrito muchos libros que abordan la teoría de respuesta a los ítems o que contienen modelos de TRI o similares. Esta es una lista parcial, que se centra en textos que brindan más profundidad.

  • Lord, FM (1980). Aplicaciones de la teoría de respuesta al ítem a problemas prácticos de evaluación. Mahwah, NJ: Erlbaum.
Este libro resume gran parte del trabajo de Lord sobre la teoría de la probabilidad, incluidos capítulos sobre la relación entre la teoría de la probabilidad y los métodos clásicos, los fundamentos de la teoría de la probabilidad, la estimación y varios temas avanzados. El capítulo sobre estimación ya está desactualizado, ya que analiza principalmente el método de máxima verosimilitud conjunta en lugar del método de máxima verosimilitud marginal implementado por Darrell Bock y sus colegas.
  • Embretson, Susan E.; Reise, Steven P. (2000). Teoría de la respuesta al ítem para psicólogos. Psychology Press. ISBN 978-0-8058-2819-1.
Este libro es una introducción accesible a la TRI, dirigida, como dice el título, a los psicólogos.
  • Baker, Frank (2001). Fundamentos de la teoría de respuesta al ítem. ERIC Clearinghouse on Assessment and Evaluation, Universidad de Maryland, College Park, MD.
Este libro introductorio es de uno de los pioneros en el campo y está disponible en línea en [1]
  • Baker, Frank B.; Kim, Seock-Ho (2004). Teoría de respuesta al ítem: técnicas de estimación de parámetros (2.ª ed.). Marcel Dekker. ISBN 978-0-8247-5825-7.
Este libro describe varios modelos de teoría de respuesta a ítems y proporciona explicaciones detalladas de algoritmos que pueden utilizarse para estimar los parámetros de ítems y de capacidad. Partes del libro están disponibles en línea como vista previa limitada en Google Books .
  • van der Linden, Wim J.; Hambleton, Ronald K., eds. (1996). Manual de teoría moderna de la respuesta al ítem. Saltador. ISBN 978-0-387-94661-0.
Este libro ofrece una descripción general completa de varios modelos populares de IRT. Es ideal para personas que ya tienen conocimientos básicos de IRT.
  • de Boeck, Paul; Wilson, Mark (2004). Modelos explicativos de respuesta a ítems: un enfoque lineal y no lineal generalizado. Springer. ISBN 978-0-387-40275-8.
Este volumen muestra una introducción integrada a los modelos de respuesta a los ítems, dirigida principalmente a profesionales, investigadores y estudiantes de posgrado.
  • Fox, Jean-Paul (2010). Modelado bayesiano de respuesta a ítems: teoría y aplicaciones. Springer. ISBN 978-1-4419-0741-7.
Este libro analiza el enfoque bayesiano para el modelado de respuestas a los ítems. El libro será útil para personas (que estén familiarizadas con la IRT) interesadas en analizar datos de respuestas a los ítems desde una perspectiva bayesiana.
  • "HISTORIA DE LA TEORÍA DE RESPUESTA AL ÍTEM (hasta 1982)", Universidad de Illinois en Chicago
  • Una guía sencilla sobre la teoría de respuesta al ítem (PDF)
  • Descargas de software psicométrico
  • Tutorial de IRT
  • Preguntas frecuentes sobre el tutorial IRT
  • Introducción a la IRT
  • Normas para las pruebas educativas y psicológicas
  • Programa informático en lenguaje de comandos IRT (ICL)
  • Programas IRT de SSI, Inc.
  • Análisis de rasgos latentes y modelos IRT
  • Análisis de Rasch Archivado el 25 de agosto de 2009 en Wayback Machine.
  • Programas de análisis de Rasch de Winsteps
  • Teoría de la respuesta al ítem
  • Software IRT gratuito
  • Paquetes IRT en R
  • Soporte IRT / EIRT en Lertap 5 Archivado el 4 de marzo de 2016 en Wayback Machine
  • Análisis y generación de informes visuales IRT con Xcalibre
Retrieved from "https://en.wikipedia.org/w/index.php?title=Item_response_theory&oldid=1251555550"