En medicina y estadística , la sensibilidad y la especificidad describen matemáticamente la precisión de una prueba que informa la presencia o ausencia de una afección médica. Si las personas que padecen la afección se consideran "positivas" y las que no la padecen se consideran "negativas", entonces la sensibilidad es una medida de qué tan bien una prueba puede identificar verdaderos positivos y la especificidad es una medida de qué tan bien una prueba puede identificar verdaderos negativos:
Si no se puede conocer el estado real de la enfermedad, la sensibilidad y la especificidad se pueden definir en relación con una " prueba de referencia " que se supone correcta. En todas las pruebas, tanto diagnósticas como de detección , suele existir un equilibrio entre sensibilidad y especificidad, de modo que una mayor sensibilidad implicará una menor especificidad y viceversa.
Una prueba que detecte de forma fiable la presencia de una enfermedad, con un elevado número de verdaderos positivos y un bajo número de falsos negativos, tendrá una alta sensibilidad. Esto es especialmente importante cuando las consecuencias de no tratar la enfermedad son graves o el tratamiento es muy eficaz y tiene efectos secundarios mínimos.
Una prueba que excluya de manera confiable a las personas que no padecen la enfermedad, lo que da como resultado un alto número de verdaderos negativos y un bajo número de falsos positivos, tendrá una alta especificidad. Esto es especialmente importante cuando las personas a las que se les diagnostica una enfermedad pueden estar sujetas a más pruebas, gastos, estigma, ansiedad, etc.
Los términos "sensibilidad" y "especificidad" fueron introducidos por el bioestadístico estadounidense Jacob Yerushalmy en 1947. [1]
Existen diferentes definiciones dentro del control de calidad de laboratorio , donde la "sensibilidad analítica" se define como la cantidad más pequeña de sustancia en una muestra que se puede medir con precisión mediante un ensayo (sinónimo de límite de detección ), y la "especificidad analítica" se define como la capacidad de un ensayo para medir un organismo o sustancia en particular, en lugar de otros. [2] Sin embargo, este artículo trata sobre la sensibilidad y especificidad diagnósticas tal como se definen en la parte superior.
Imaginemos un estudio que evalúa una prueba que detecta una enfermedad en las personas. Cada persona que se somete a la prueba tiene o no la enfermedad. El resultado de la prueba puede ser positivo (clasificando a la persona como enferma) o negativo (clasificando a la persona como no enferma). Los resultados de la prueba para cada sujeto pueden coincidir o no con el estado real del sujeto. En ese contexto:
Después de obtener las cifras de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos, se puede calcular la sensibilidad y la especificidad de la prueba. Si resulta que la sensibilidad es alta, es probable que cualquier persona que tenga la enfermedad sea clasificada como positiva por la prueba. Por otro lado, si la especificidad es alta, es probable que cualquier persona que no tenga la enfermedad sea clasificada como negativa por la prueba. En un sitio web del NIH se explica cómo se calculan estas proporciones. [3]
Consideremos el ejemplo de una prueba médica para diagnosticar una enfermedad. La sensibilidad (a veces también denominada tasa de detección en un entorno clínico) se refiere a la capacidad de la prueba para detectar correctamente a los pacientes enfermos entre aquellos que sí padecen la enfermedad. [4] Matemáticamente, esto se puede expresar como:
Un resultado negativo en una prueba con alta sensibilidad puede ser útil para "descartar" una enfermedad, [4] ya que rara vez diagnostica erróneamente a quienes sí la tienen. Una prueba con una sensibilidad del 100% reconocerá a todos los pacientes con la enfermedad al dar positivo. En este caso, un resultado negativo en la prueba descartaría definitivamente la presencia de la enfermedad en un paciente. Sin embargo, un resultado positivo en una prueba con alta sensibilidad no es necesariamente útil para "descartar" una enfermedad. Supongamos que un kit de prueba "falso" está diseñado para dar siempre una lectura positiva. Cuando se utiliza en pacientes enfermos, todos los pacientes dan positivo, lo que da a la prueba una sensibilidad del 100%. Sin embargo, la sensibilidad no tiene en cuenta los falsos positivos. La prueba falsa también da positivo en todos los pacientes sanos, lo que le da una tasa de falsos positivos del 100%, lo que la vuelve inútil para detectar o "descartar" la enfermedad.
El cálculo de la sensibilidad no tiene en cuenta los resultados indeterminados de las pruebas. Si no es posible repetir una prueba, las muestras indeterminadas deben excluirse del análisis (el número de exclusiones debe indicarse al citar la sensibilidad) o pueden tratarse como falsos negativos (lo que da el peor valor posible para la sensibilidad y, por lo tanto, puede subestimarla).
Una prueba con una mayor sensibilidad tiene una tasa de error tipo II más baja .
Consideremos el ejemplo de una prueba médica para diagnosticar una enfermedad. La especificidad se refiere a la capacidad de la prueba para rechazar correctamente a pacientes sanos sin ninguna enfermedad. Matemáticamente, esto se puede escribir como:
Un resultado positivo en una prueba con alta especificidad puede ser útil para "descartar" una enfermedad, ya que la prueba rara vez da resultados positivos en pacientes sanos. [5] Una prueba con 100% de especificidad reconocerá a todos los pacientes sin la enfermedad al dar negativo, por lo que un resultado positivo de la prueba definitivamente confirmaría la presencia de la enfermedad. Sin embargo, un resultado negativo de una prueba con alta especificidad no es necesariamente útil para "descartar" una enfermedad. Por ejemplo, una prueba que siempre arroje un resultado negativo tendrá una especificidad del 100% porque la especificidad no considera los falsos negativos. Una prueba como esa daría negativo para los pacientes con la enfermedad, lo que la haría inútil para "descartar" la enfermedad.
Una prueba con una mayor especificidad tiene una tasa de error tipo I más baja .
La ilustración gráfica anterior tiene como objetivo mostrar la relación entre la sensibilidad y la especificidad. La línea de puntos negra en el centro del gráfico es donde la sensibilidad y la especificidad son iguales. A medida que uno se mueve hacia la izquierda de la línea de puntos negra, la sensibilidad aumenta, alcanzando su valor máximo de 100% en la línea A, y la especificidad disminuye. La sensibilidad en la línea A es del 100% porque en ese punto hay cero falsos negativos, lo que significa que todos los resultados negativos de la prueba son verdaderos negativos. Al moverse hacia la derecha, se aplica lo contrario, la especificidad aumenta hasta que llega a la línea B y se convierte en 100% y la sensibilidad disminuye. La especificidad en la línea B es del 100% porque el número de falsos positivos es cero en esa línea, lo que significa que todos los resultados positivos de la prueba son verdaderos positivos.
La línea continua central en ambas figuras anteriores que muestra el nivel de sensibilidad y especificidad es el punto de corte de la prueba. Como se describió anteriormente, mover esta línea da como resultado un equilibrio entre el nivel de sensibilidad y especificidad. El lado izquierdo de esta línea contiene los puntos de datos que se encuentran por debajo del punto de corte y se consideran negativos (los puntos azules indican los falsos negativos (FN), los puntos blancos los verdaderos negativos (TN)). El lado derecho de la línea muestra los puntos de datos que se encuentran por encima del punto de corte y se consideran positivos (los puntos rojos indican los falsos positivos (FP)). Cada lado contiene 40 puntos de datos.
Para la figura que muestra alta sensibilidad y baja especificidad, hay 3 FN y 8 FP. Utilizando el hecho de que los resultados positivos = verdaderos positivos (VP) + FP, obtenemos VP = resultados positivos - FP, o VP = 40 - 8 = 32. El número de personas enfermas en el conjunto de datos es igual a VP + FN, o 32 + 3 = 35. La sensibilidad es, por tanto, 32 / 35 = 91,4%. Utilizando el mismo método, obtenemos VT = 40 - 3 = 37, y el número de personas sanas 37 + 8 = 45, lo que da como resultado una especificidad de 37 / 45 = 82,2%.
En la figura que muestra una sensibilidad baja y una especificidad alta, hay 8 FN y 3 FP. Utilizando el mismo método que en la figura anterior, obtenemos TP = 40 - 3 = 37. El número de enfermos es 37 + 8 = 45, lo que da una sensibilidad de 37 / 45 = 82,2 %. Hay 40 - 8 = 32 TN. La especificidad resulta, por tanto, 32 / 35 = 91,4 %.
El punto rojo indica el paciente con la afección médica. El fondo rojo indica el área donde la prueba predice que el punto de datos será positivo. El verdadero positivo en esta figura es 6 y los falsos negativos de 0 (porque todas las afecciones positivas se predicen correctamente como positivas). Por lo tanto, la sensibilidad es del 100% (de 6 / (6 + 0) ). Esta situación también se ilustra en la figura anterior donde la línea de puntos está en la posición A (el modelo predice que el lado izquierdo es negativo, el lado derecho es positivo). Cuando la línea de puntos, la línea de corte de la prueba, está en la posición A, la prueba predice correctamente toda la población de la clase de verdaderos positivos, pero no podrá identificar correctamente el punto de datos de la clase de verdaderos negativos.
De manera similar a la figura explicada anteriormente, el punto rojo indica el paciente con la afección médica. Sin embargo, en este caso, el fondo verde indica que la prueba predice que todos los pacientes están libres de la afección médica. El número de puntos de datos que son verdaderos negativos es entonces 26 y el número de falsos positivos es 0. Esto da como resultado una especificidad del 100 % (de 26 / (26 + 0) ). Por lo tanto, la sensibilidad o la especificidad por sí solas no se pueden utilizar para medir el rendimiento de la prueba.
En el diagnóstico médico , la sensibilidad de una prueba es la capacidad de una prueba para identificar correctamente a aquellos con la enfermedad (tasa de verdaderos positivos), mientras que la especificidad de la prueba es la capacidad de la prueba para identificar correctamente a aquellos sin la enfermedad (tasa de verdaderos negativos). Si se analizaron 100 pacientes que se sabía que tenían una enfermedad y 43 dieron positivo, la prueba tiene una sensibilidad del 43%. Si se analizaron 100 pacientes sin enfermedad y 96 dieron un resultado completamente negativo, la prueba tiene una especificidad del 96%. La sensibilidad y la especificidad son características de la prueba independientes de la prevalencia, ya que sus valores son intrínsecos a la prueba y no dependen de la prevalencia de la enfermedad en la población de interés. [6] Los valores predictivos positivos y negativos , pero no la sensibilidad o la especificidad, son valores influenciados por la prevalencia de la enfermedad en la población que se está analizando. Estos conceptos se ilustran gráficamente en este modelo de diagnóstico clínico bayesiano en forma de subprograma que muestra los valores predictivos positivos y negativos en función de la prevalencia, la sensibilidad y la especificidad.
A menudo se afirma que una prueba muy específica es eficaz para confirmar una enfermedad cuando es positiva, mientras que una prueba muy sensible se considera eficaz para descartar una enfermedad cuando es negativa. [7] [8] Esto ha llevado a las mnemotecnias ampliamente utilizadas SPPIN y SNNOUT, según las cuales una prueba muy específica, cuando es positiva , confirma la enfermedad (SP-P-IN), y una prueba muy sensible , cuando es negativa , descarta la enfermedad (SN-N-OUT). Sin embargo, ambas reglas empíricas son inferencialmente engañosas, ya que el poder diagnóstico de cualquier prueba está determinado por la prevalencia de la condición que se está probando, la sensibilidad de la prueba y su especificidad. [9] [10] [11] La mnemotecnia SNNOUT tiene cierta validez cuando la prevalencia de la condición en cuestión es extremadamente baja en la muestra analizada.
El equilibrio entre especificidad y sensibilidad se explora en el análisis ROC como un equilibrio entre TPR y FPR (es decir, recuerdo y repercusión ). [12] Al darles el mismo peso se optimiza la información = especificidad + sensibilidad − 1 = TPR − FPR, cuya magnitud da la probabilidad de una decisión informada entre las dos clases (> 0 representa el uso apropiado de la información, 0 representa el desempeño a nivel de probabilidad, < 0 representa el uso perverso de la información). [13]
El índice de sensibilidad o d′ (pronunciado "dee-prime") es una estadística utilizada en la teoría de detección de señales . Proporciona la separación entre las medias de la señal y las distribuciones de ruido, comparadas con la desviación estándar de la distribución de ruido. Para señales y ruidos distribuidos normalmente con medias y desviaciones estándar y , y y , respectivamente, d′ se define como:
También se puede obtener una estimación de d′ a partir de las mediciones de la tasa de aciertos y de la tasa de falsas alarmas . Se calcula de la siguiente manera:
donde la función Z ( p ), p ∈ [0, 1], es la inversa de la distribución gaussiana acumulativa .
d′ es una estadística adimensional . Un valor de d′ más alto indica que la señal se puede detectar más fácilmente.
La relación entre sensibilidad, especificidad y términos similares se puede entender utilizando la siguiente tabla. Considere un grupo con P casos positivos y N casos negativos de alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia 2×2 o matriz de confusión , así como derivaciones de varias métricas utilizando los cuatro resultados, de la siguiente manera:
Condición prevista | Fuentes: [16] [17] [18] [19] [20] [21] [22] [23] | ||||
Población total = P + N | Positivo previsto (PP) | Predicción negativa (PN) | Información , información de la casa de apuestas (BM) = TPR + TNR − 1 | Umbral de prevalencia (PT) = √ TPR × FPR - FPR/TPR-FPR | |
Estado actual | Positivo (P) [a] | Verdadero positivo (VP), acierto [b] | Falso negativo (FN), error, subestimación | Tasa de verdaderos positivos (TPR), recuperación , sensibilidad (SEN), probabilidad de detección, tasa de aciertos, potencia =TP/PAG = 1 − FNR | Tasa de falsos negativos (FNR), tasa de error tipo II [c] = Enero 2016/PAG = 1 − TPR |
Negativo (N) [d] | Falso positivo (FP), falsa alarma, sobreestimación | Verdadero negativo (VN), rechazo correcto [e] | Tasa de falsos positivos (FPR), probabilidad de falsa alarma, error tipo I de repercusión [f] = FP/norte = 1 − TNR | Tasa de verdaderos negativos (TNR), especificidad (SPC), selectividad =Tennesse/norte = 1 − FPR | |
Prevalencia = PAG/P + N | Valor predictivo positivo (VPP), precisión = TP/PÁGINAS = 1 − FDR | Tasa de falsas omisiones (FOR) = Enero 2016/PN = 1 − VPN | Razón de verosimilitud positiva (LR+) = TPR/FPR | Razón de verosimilitud negativa (LR−) = FNR/TNR | |
Precisión (ACC) = TP + TN/P + N | Tasa de falsos descubrimientos (FDR) = FP/PÁGINAS = 1 − VPP | Valor predictivo negativo (VPN) = Tennesse/PN = 1 − PARA | Marcación (MK), deltaP (Δp) = PPV + VAN − 1 | Razón de posibilidades diagnóstica (DOR) = LR+/LR− | |
Precisión equilibrada (BA) = TPR + TNR/2 | Puntuación F 1 = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN | Índice de Fowlkes-Mallows (FM) = √ PPV × TPR | Coeficiente de correlación de Matthews (MCC) = √ TPR × TNR × PPV × NPV - √ FNR × FPR × FOR × FDR | Puntuación de amenaza (TS), índice de éxito crítico (CSI), índice de Jaccard = TP/TP + FN + FP |
Resultado de la prueba de detección de sangre oculta en heces | |||||
Población total (población) = 2030 | Resultado de la prueba positivo | Resultado de la prueba negativo | Precisión (ACC) = (TP + TN) / población = (20 + 1820) / 2030 ≈ 90,64% | Puntuación F 1 = 2 × precisión × recuperación/precisión + recuperación ≈ 0,174 | |
Pacientes con cáncer de intestino (confirmado mediante endoscopia ) | Estado actual positivo (PA) = 30 (2030 × 1,48%) | Verdadero positivo (VP) = 20 (2030 × 1,48 % × 67 %) | Falso negativo (FN) = 10 (2030 × 1,48% × (100% − 67%) ) | Tasa de verdaderos positivos (TPR), recuperación , sensibilidad = TP / PA = 20 / 30 ≈ 66,7% | Tasa de falsos negativos (FNR), tasa de errores = FN / PA = 10 / 30 ≈ 33,3% |
Condición actual negativa (AN) = 2000 (2030 × (100% − 1,48%) ) | Falso positivo (FP) = 180 (2030 × (100% − 1,48%) × (100% − 91%) ) | Verdadero negativo (VN) = 1820 (2030 × (100% − 1,48%) × 91%) | Tasa de falsos positivos (FPR), repercusión , probabilidad de falsa alarma = FP / AN = 180 / 2000 = 9,0% | Especificidad, selectividad, tasa de verdaderos negativos (TNR) = TN / AN = 1820 / 2000 = 91% | |
Predominio = AP / poblacion = 30 / 2030 ≈ 1,48% | Valor predictivo positivo (VPP), precisión = VP / (VP + FP) = 20 / (20 + 180) = 10% | Tasa de falsas omisiones (FOR) = FN / (FN + TN) = 10 / (10 + 1820) ≈ 0,55% | Razón de verosimilitud positiva (LR+) = TPR/FPR = (20/30) / (180/2000) ≈ 7,41 | Razón de verosimilitud negativa (LR−) = FNR/TNR = (10/30) / (1820/2000) ≈ 0,366 | |
Tasa de falsos descubrimientos (FDR) = FP / (TP + FP) = 180 / (20 + 180) = 90,0% | Valor predictivo negativo (VPN) = TN / (FN + TN) = 1820 / (10 + 1820) ≈ 99,45% | Razón de posibilidades diagnósticas (DOR) = LR+/LR− ≈ 20,2 |
Cálculos relacionados
Esta prueba de detección hipotética (prueba de sangre oculta en heces) identificó correctamente a dos tercios (66,7 %) de los pacientes con cáncer colorrectal. [a] Lamentablemente, al tener en cuenta las tasas de prevalencia, se revela que esta prueba hipotética tiene una alta tasa de falsos positivos y no identifica de manera confiable el cáncer colorrectal en la población general de personas asintomáticas (VPP = 10 %).
Por otra parte, esta prueba hipotética demuestra una detección muy precisa de individuos libres de cáncer (VPN ≈ 99,5%). Por lo tanto, cuando se utiliza para el cribado sistemático del cáncer colorrectal en adultos asintomáticos, un resultado negativo aporta datos importantes para el paciente y el médico, como descartar el cáncer como causa de los síntomas gastrointestinales o tranquilizar a los pacientes preocupados por el desarrollo de cáncer colorrectal.
Los valores de sensibilidad y especificidad por sí solos pueden ser muy engañosos. La sensibilidad o especificidad del "peor caso" debe calcularse para evitar depender de experimentos con pocos resultados. Por ejemplo, una prueba particular puede mostrar fácilmente una sensibilidad del 100% si se prueba contra el estándar de oro cuatro veces, pero una sola prueba adicional contra el estándar de oro que arroje un resultado deficiente implicaría una sensibilidad de solo el 80%. Una forma común de hacer esto es indicar el intervalo de confianza de proporción binomial , a menudo calculado utilizando un intervalo de puntuación de Wilson.
Se pueden calcular intervalos de confianza para la sensibilidad y la especificidad, dando el rango de valores dentro del cual se encuentra el valor correcto en un nivel de confianza dado (por ejemplo, 95%). [26]
En la recuperación de información , el valor predictivo positivo se denomina precisión y la sensibilidad se denomina recuperación . A diferencia de la disyuntiva entre especificidad y sensibilidad, estas medidas son independientes de la cantidad de negativos verdaderos, que generalmente es desconocida y mucho mayor que la cantidad real de documentos relevantes y recuperados. Esta suposición de una cantidad muy grande de negativos verdaderos frente a positivos es poco común en otras aplicaciones. [13]
La puntuación F se puede utilizar como medida única del rendimiento de la prueba para la clase positiva. La puntuación F es la media armónica de la precisión y la recuperación:
En el lenguaje tradicional de las pruebas de hipótesis estadísticas , la sensibilidad de una prueba se denomina potencia estadística de la prueba, aunque la palabra potencia en ese contexto tiene un uso más general que no es aplicable en el presente contexto. Una prueba sensible tendrá menos errores de tipo II .
De manera similar al dominio de la recuperación de información , en el área de investigación de predicción genética , el número de verdaderos negativos (no genes) en secuencias genómicas es generalmente desconocido y mucho mayor que el número real de genes (verdaderos positivos). El término conveniente e intuitivamente entendido especificidad en esta área de investigación se ha utilizado con frecuencia con la fórmula matemática para precisión y recuperación según se define en bioestadística. El par de especificidad así definida (como valor predictivo positivo) y sensibilidad (tasa de verdaderos positivos) representa parámetros principales que caracterizan la precisión de los algoritmos de predicción genética. [27] [28] [29] [30] Por el contrario, el término especificidad en un sentido de tasa de verdaderos negativos tendría poca, si es que tiene alguna, aplicación en el área de investigación del análisis del genoma.