La puntuación de una prueba es un dato, generalmente un número, que refleja el desempeño de un examinado en una prueba . Una definición formal es que es "un resumen de la evidencia contenida en las respuestas de un examinado a los ítems de una prueba que están relacionados con el constructo o los constructos que se están midiendo". [1]
Las puntuaciones de los exámenes se interpretan con una interpretación basada en normas o en criterios , o en ocasiones con ambos. Una interpretación basada en normas significa que la puntuación transmite un significado sobre el sujeto en relación con su posición entre los demás sujetos. Una interpretación basada en criterios significa que la puntuación transmite información sobre el sujeto en relación con un tema específico, independientemente de las puntuaciones de los demás sujetos. [2]
Existen dos tipos de puntajes de exámenes: puntajes brutos y puntajes escalados . Un puntaje bruto es un puntaje sin ningún tipo de ajuste o transformación, como el simple número de preguntas respondidas correctamente. Un puntaje escalado es el resultado de alguna transformación aplicada al puntaje bruto, como en la calificación relativa .
El propósito de las puntuaciones escaladas es informar las puntuaciones de todos los examinados en una escala consistente. Supongamos que una prueba tiene dos formularios y uno es más difícil que el otro. Se ha determinado equiparando que una puntuación del 65 % en el formulario 1 es equivalente a una puntuación del 68 % en el formulario 2. Las puntuaciones en ambos formularios se pueden convertir a una escala para que estas dos puntuaciones equivalentes tengan las mismas puntuaciones informadas. Por ejemplo, ambas podrían ser una puntuación de 350 en una escala de 100 a 500.
Dos pruebas conocidas en los Estados Unidos que tienen puntuaciones escaladas son el ACT y el SAT. La escala del ACT va de 0 a 36 y la del SAT de 200 a 800 (por sección). En apariencia, estas dos escalas se seleccionaron para representar una media y una desviación estándar de 18 y 6 (ACT), y de 500 y 100. Los límites superior e inferior se seleccionaron porque un intervalo de más o menos tres desviaciones estándar contiene más del 99% de una población. Las puntuaciones fuera de ese rango son difíciles de medir y tienen poco valor práctico.
Cabe señalar que la escala no afecta las propiedades psicométricas de una prueba; es algo que ocurre después de que se completa el proceso de evaluación (y la equiparación, si la hay). Por lo tanto, no es una cuestión de psicometría en sí, sino de interpretabilidad.
Cuando se califican las pruebas como correctas o incorrectas , se ha hecho una suposición importante sobre el aprendizaje. Se supone que la cantidad de respuestas correctas o la suma de las puntuaciones de los ítems (cuando se otorga un puntaje parcial) es la medida adecuada y suficiente del estado de desempeño actual. Además, se hace una suposición secundaria de que no hay información significativa en las respuestas incorrectas .
En primer lugar, se puede obtener una respuesta correcta mediante la memorización sin necesidad de comprender en profundidad el contenido subyacente o la estructura conceptual del problema planteado. En segundo lugar, cuando se requiere más de un paso para la solución, a menudo hay una variedad de enfoques para responder que conducen a un resultado correcto . El hecho de que la respuesta sea correcta no indica cuál de los varios procedimientos posibles se utilizó. Cuando el estudiante proporciona la respuesta (o muestra el trabajo), esta información está fácilmente disponible en los documentos originales.
En segundo lugar, si las respuestas incorrectas fueran suposiciones a ciegas , no habría información que encontrar entre ellas. Por otra parte, si las respuestas incorrectas reflejan desviaciones de la interpretación esperada, estas respuestas deberían mostrar una relación ordenada con lo que mide la prueba en general. Esta desviación debería depender del nivel de madurez psicolingüística del estudiante que elige o da la respuesta en la lengua vernácula en la que está escrita la prueba.
En este segundo caso, debería ser posible extraer este orden de las respuestas a los ítems de la prueba. [3] Estos procesos de extracción, como el modelo de Rasch , son una práctica habitual para el desarrollo de ítems entre los profesionales. Sin embargo, como las respuestas incorrectas se descartan durante el proceso de puntuación, rara vez se realiza un análisis de estas respuestas para determinar la información que podrían contener.
En tercer lugar, aunque a veces se proporcionan las puntuaciones de las subpruebas basadas en temas, la práctica más habitual es informar la puntuación total o una versión reescalada de la misma. Esta reescalada tiene por objeto comparar estas puntuaciones con un estándar de algún tipo. Este colapso adicional de los resultados de la prueba elimina sistemáticamente toda la información sobre qué elementos concretos no se cumplieron.
Por lo tanto, al calificar una prueba como correcta o incorrecta, se pierden de vista 1) cómo los estudiantes lograron sus respuestas correctas , 2) qué los llevó a obtener respuestas inaceptables y 3) en qué parte del cuerpo de la prueba se produjo esta desviación de las expectativas.
Este comentario sugiere que el actual procedimiento de calificación oculta la dinámica del proceso de realización de las pruebas y oscurece las capacidades de los estudiantes evaluados. La práctica actual de calificación simplifica en exceso estos datos en el paso inicial de calificación. El resultado de este error de procedimiento es oscurecer información de diagnóstico que podría ayudar a los profesores a servir mejor a sus estudiantes. Además, impide que quienes preparan diligentemente estas pruebas puedan observar la información que de otro modo los habría alertado sobre la presencia de este error.
Actualmente se está desarrollando una solución a este problema, conocida como Evaluación del Espectro de Respuesta (RSE), [4] que parece ser capaz de recuperar las tres formas de pérdida de información, al tiempo que proporciona una escala numérica para establecer el estado de rendimiento actual y realizar un seguimiento de los cambios de rendimiento.
Este enfoque de RSE proporciona una interpretación de cada respuesta, ya sea correcta o incorrecta, que indica los procesos de pensamiento probables utilizados por el candidato. [5] Entre otros hallazgos, este capítulo informa que la información recuperable explica entre dos y tres veces más la variabilidad de la prueba que si se consideran solo las respuestas correctas. Esta pérdida masiva de información puede explicarse por el hecho de que las respuestas "incorrectas" se eliminan de la información que se recopila durante el proceso de calificación y ya no están disponibles para revelar el error de procedimiento inherente a la calificación correcta-incorrecta. El procedimiento evita las limitaciones producidas por las dependencias lineales inherentes a los datos de la prueba.