Sensibilidad y especificidad

Medida estadística de una clasificación binaria

En medicina y estadística , la sensibilidad y la especificidad describen matemáticamente la precisión de una prueba que informa la presencia o ausencia de una afección médica. Si las personas que padecen la afección se consideran "positivas" y las que no la padecen se consideran "negativas", entonces la sensibilidad es una medida de qué tan bien una prueba puede identificar verdaderos positivos y la especificidad es una medida de qué tan bien una prueba puede identificar verdaderos negativos:

La sensibilidad (tasa de positivos verdaderos) es la probabilidad de un resultado positivo en la prueba, condicionada a que el individuo sea verdaderamente positivo.
La especificidad (tasa de negativos verdaderos) es la probabilidad de un resultado negativo en la prueba, condicionada a que el individuo sea verdaderamente negativo.

Si no se puede conocer el estado real de la enfermedad, la sensibilidad y la especificidad se pueden definir en relación con una " prueba de referencia " que se supone correcta. En todas las pruebas, tanto diagnósticas como de detección , suele existir un equilibrio entre sensibilidad y especificidad, de modo que una mayor sensibilidad implicará una menor especificidad y viceversa.

Una prueba que detecte de forma fiable la presencia de una enfermedad, con un elevado número de verdaderos positivos y un bajo número de falsos negativos, tendrá una alta sensibilidad. Esto es especialmente importante cuando las consecuencias de no tratar la enfermedad son graves o el tratamiento es muy eficaz y tiene efectos secundarios mínimos.

Una prueba que excluya de manera confiable a las personas que no padecen la enfermedad, lo que da como resultado un alto número de verdaderos negativos y un bajo número de falsos positivos, tendrá una alta especificidad. Esto es especialmente importante cuando las personas a las que se les diagnostica una enfermedad pueden estar sujetas a más pruebas, gastos, estigma, ansiedad, etc.

Los términos "sensibilidad" y "especificidad" fueron introducidos por el bioestadístico estadounidense Jacob Yerushalmy en 1947. ^[1]

Existen diferentes definiciones dentro del control de calidad de laboratorio , donde la "sensibilidad analítica" se define como la cantidad más pequeña de sustancia en una muestra que se puede medir con precisión mediante un ensayo (sinónimo de límite de detección ), y la "especificidad analítica" se define como la capacidad de un ensayo para medir un organismo o sustancia en particular, en lugar de otros. ^[2] Sin embargo, este artículo trata sobre la sensibilidad y especificidad diagnósticas tal como se definen en la parte superior.

Aplicación al estudio de cribado

Imaginemos un estudio que evalúa una prueba que detecta una enfermedad en las personas. Cada persona que se somete a la prueba tiene o no la enfermedad. El resultado de la prueba puede ser positivo (clasificando a la persona como enferma) o negativo (clasificando a la persona como no enferma). Los resultados de la prueba para cada sujeto pueden coincidir o no con el estado real del sujeto. En ese contexto:

Verdadero positivo: personas enfermas identificadas correctamente como enfermas
Falso positivo: personas sanas identificadas incorrectamente como enfermas
Verdadero negativo: Personas sanas identificadas correctamente como sanas
Falso negativo: personas enfermas identificadas incorrectamente como sanas

Después de obtener las cifras de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos, se puede calcular la sensibilidad y la especificidad de la prueba. Si resulta que la sensibilidad es alta, es probable que cualquier persona que tenga la enfermedad sea clasificada como positiva por la prueba. Por otro lado, si la especificidad es alta, es probable que cualquier persona que no tenga la enfermedad sea clasificada como negativa por la prueba. En un sitio web del NIH se explica cómo se calculan estas proporciones. ^[3]

Definición

Sensibilidad

Consideremos el ejemplo de una prueba médica para diagnosticar una enfermedad. La sensibilidad (a veces también denominada tasa de detección en un entorno clínico) se refiere a la capacidad de la prueba para detectar correctamente a los pacientes enfermos entre aquellos que sí padecen la enfermedad. ^[4] Matemáticamente, esto se puede expresar como:

{\begin{aligned}{\text{sensibilidad}}&={\frac {\text{número de verdaderos positivos}}{{\text{número de verdaderos positivos}}+{\text{número de falsos negativos}}}}\\[8pt]&={\frac {\text{número de verdaderos positivos}}{\text{número total de individuos enfermos en la población}}}\\[8pt]&={\text{probabilidad de una prueba positiva dado que el paciente tiene la enfermedad}}\end{aligned}}

Un resultado negativo en una prueba con alta sensibilidad puede ser útil para "descartar" una enfermedad, ^[4] ya que rara vez diagnostica erróneamente a quienes sí la tienen. Una prueba con una sensibilidad del 100% reconocerá a todos los pacientes con la enfermedad al dar positivo. En este caso, un resultado negativo en la prueba descartaría definitivamente la presencia de la enfermedad en un paciente. Sin embargo, un resultado positivo en una prueba con alta sensibilidad no es necesariamente útil para "descartar" una enfermedad. Supongamos que un kit de prueba "falso" está diseñado para dar siempre una lectura positiva. Cuando se utiliza en pacientes enfermos, todos los pacientes dan positivo, lo que da a la prueba una sensibilidad del 100%. Sin embargo, la sensibilidad no tiene en cuenta los falsos positivos. La prueba falsa también da positivo en todos los pacientes sanos, lo que le da una tasa de falsos positivos del 100%, lo que la vuelve inútil para detectar o "descartar" la enfermedad.

El cálculo de la sensibilidad no tiene en cuenta los resultados indeterminados de las pruebas. Si no es posible repetir una prueba, las muestras indeterminadas deben excluirse del análisis (el número de exclusiones debe indicarse al citar la sensibilidad) o pueden tratarse como falsos negativos (lo que da el peor valor posible para la sensibilidad y, por lo tanto, puede subestimarla).

Una prueba con una mayor sensibilidad tiene una tasa de error tipo II más baja .

Especificidad

Consideremos el ejemplo de una prueba médica para diagnosticar una enfermedad. La especificidad se refiere a la capacidad de la prueba para rechazar correctamente a pacientes sanos sin ninguna enfermedad. Matemáticamente, esto se puede escribir como:

{\begin{aligned}{\text{especificidad}}&={\frac {\text{número de verdaderos negativos}}{{\text{número de verdaderos negativos}}+{\text{número de falsos positivos}}}}\\[8pt]&={\frac {\text{número de verdaderos negativos}}{\text{número total de individuos sanos en la población}}}\\[8pt]&={\text{probabilidad de una prueba negativa dado que el paciente está bien}}\end{aligned}}

Un resultado positivo en una prueba con alta especificidad puede ser útil para "descartar" una enfermedad, ya que la prueba rara vez da resultados positivos en pacientes sanos. ^[5] Una prueba con 100% de especificidad reconocerá a todos los pacientes sin la enfermedad al dar negativo, por lo que un resultado positivo de la prueba definitivamente confirmaría la presencia de la enfermedad. Sin embargo, un resultado negativo de una prueba con alta especificidad no es necesariamente útil para "descartar" una enfermedad. Por ejemplo, una prueba que siempre arroje un resultado negativo tendrá una especificidad del 100% porque la especificidad no considera los falsos negativos. Una prueba como esa daría negativo para los pacientes con la enfermedad, lo que la haría inútil para "descartar" la enfermedad.

Una prueba con una mayor especificidad tiene una tasa de error tipo I más baja .

Ilustración gráfica

Una ilustración gráfica de la sensibilidad y especificidad

La ilustración gráfica anterior tiene como objetivo mostrar la relación entre la sensibilidad y la especificidad. La línea de puntos negra en el centro del gráfico es donde la sensibilidad y la especificidad son iguales. A medida que uno se mueve hacia la izquierda de la línea de puntos negra, la sensibilidad aumenta, alcanzando su valor máximo de 100% en la línea A, y la especificidad disminuye. La sensibilidad en la línea A es del 100% porque en ese punto hay cero falsos negativos, lo que significa que todos los resultados negativos de la prueba son verdaderos negativos. Al moverse hacia la derecha, se aplica lo contrario, la especificidad aumenta hasta que llega a la línea B y se convierte en 100% y la sensibilidad disminuye. La especificidad en la línea B es del 100% porque el número de falsos positivos es cero en esa línea, lo que significa que todos los resultados positivos de la prueba son verdaderos positivos.

Alta sensibilidad y baja especificidad
Baja sensibilidad y alta especificidad

La línea continua central en ambas figuras anteriores que muestra el nivel de sensibilidad y especificidad es el punto de corte de la prueba. Como se describió anteriormente, mover esta línea da como resultado un equilibrio entre el nivel de sensibilidad y especificidad. El lado izquierdo de esta línea contiene los puntos de datos que se encuentran por debajo del punto de corte y se consideran negativos (los puntos azules indican los falsos negativos (FN), los puntos blancos los verdaderos negativos (TN)). El lado derecho de la línea muestra los puntos de datos que se encuentran por encima del punto de corte y se consideran positivos (los puntos rojos indican los falsos positivos (FP)). Cada lado contiene 40 puntos de datos.

Para la figura que muestra alta sensibilidad y baja especificidad, hay 3 FN y 8 FP. Utilizando el hecho de que los resultados positivos = verdaderos positivos (VP) + FP, obtenemos VP = resultados positivos - FP, o VP = 40 - 8 = 32. El número de personas enfermas en el conjunto de datos es igual a VP + FN, o 32 + 3 = 35. La sensibilidad es, por tanto, 32 / 35 = 91,4%. Utilizando el mismo método, obtenemos VT = 40 - 3 = 37, y el número de personas sanas 37 + 8 = 45, lo que da como resultado una especificidad de 37 / 45 = 82,2%.

En la figura que muestra una sensibilidad baja y una especificidad alta, hay 8 FN y 3 FP. Utilizando el mismo método que en la figura anterior, obtenemos TP = 40 - 3 = 37. El número de enfermos es 37 + 8 = 45, lo que da una sensibilidad de 37 / 45 = 82,2 %. Hay 40 - 8 = 32 TN. La especificidad resulta, por tanto, 32 / 35 = 91,4 %.

Un resultado de prueba con una sensibilidad del 100 por ciento
Un resultado de prueba con una especificidad del 100 por ciento

El punto rojo indica el paciente con la afección médica. El fondo rojo indica el área donde la prueba predice que el punto de datos será positivo. El verdadero positivo en esta figura es 6 y los falsos negativos de 0 (porque todas las afecciones positivas se predicen correctamente como positivas). Por lo tanto, la sensibilidad es del 100% (de 6 / (6 + 0) ). Esta situación también se ilustra en la figura anterior donde la línea de puntos está en la posición A (el modelo predice que el lado izquierdo es negativo, el lado derecho es positivo). Cuando la línea de puntos, la línea de corte de la prueba, está en la posición A, la prueba predice correctamente toda la población de la clase de verdaderos positivos, pero no podrá identificar correctamente el punto de datos de la clase de verdaderos negativos.

De manera similar a la figura explicada anteriormente, el punto rojo indica el paciente con la afección médica. Sin embargo, en este caso, el fondo verde indica que la prueba predice que todos los pacientes están libres de la afección médica. El número de puntos de datos que son verdaderos negativos es entonces 26 y el número de falsos positivos es 0. Esto da como resultado una especificidad del 100 % (de 26 / (26 + 0) ). Por lo tanto, la sensibilidad o la especificidad por sí solas no se pueden utilizar para medir el rendimiento de la prueba.

Uso médico

En el diagnóstico médico , la sensibilidad de una prueba es la capacidad de una prueba para identificar correctamente a aquellos con la enfermedad (tasa de verdaderos positivos), mientras que la especificidad de la prueba es la capacidad de la prueba para identificar correctamente a aquellos sin la enfermedad (tasa de verdaderos negativos). Si se analizaron 100 pacientes que se sabía que tenían una enfermedad y 43 dieron positivo, la prueba tiene una sensibilidad del 43%. Si se analizaron 100 pacientes sin enfermedad y 96 dieron un resultado completamente negativo, la prueba tiene una especificidad del 96%. La sensibilidad y la especificidad son características de la prueba independientes de la prevalencia, ya que sus valores son intrínsecos a la prueba y no dependen de la prevalencia de la enfermedad en la población de interés. ^[6] Los valores predictivos positivos y negativos , pero no la sensibilidad o la especificidad, son valores influenciados por la prevalencia de la enfermedad en la población que se está analizando. Estos conceptos se ilustran gráficamente en este modelo de diagnóstico clínico bayesiano en forma de subprograma que muestra los valores predictivos positivos y negativos en función de la prevalencia, la sensibilidad y la especificidad.

Conceptos erróneos

A menudo se afirma que una prueba muy específica es eficaz para confirmar una enfermedad cuando es positiva, mientras que una prueba muy sensible se considera eficaz para descartar una enfermedad cuando es negativa. ^[7]^[8] Esto ha llevado a las mnemotecnias ampliamente utilizadas SPPIN y SNNOUT, según las cuales una prueba muy específica, cuando es positiva , confirma la enfermedad (SP-P-IN), y una prueba muy sensible , cuando es negativa , descarta la enfermedad (SN-N-OUT). Sin embargo, ambas reglas empíricas son inferencialmente engañosas, ya que el poder diagnóstico de cualquier prueba está determinado por la prevalencia de la condición que se está probando, la sensibilidad de la prueba y su especificidad. ^[9]^[10]^[11] La mnemotecnia SNNOUT tiene cierta validez cuando la prevalencia de la condición en cuestión es extremadamente baja en la muestra analizada.

El equilibrio entre especificidad y sensibilidad se explora en el análisis ROC como un equilibrio entre TPR y FPR (es decir, recuerdo y repercusión ). ^[12] Al darles el mismo peso se optimiza la información = especificidad + sensibilidad − 1 = TPR − FPR, cuya magnitud da la probabilidad de una decisión informada entre las dos clases (> 0 representa el uso apropiado de la información, 0 representa el desempeño a nivel de probabilidad, < 0 representa el uso perverso de la información). ^[13]

Índice de sensibilidad

El índice de sensibilidad o d′ (pronunciado "dee-prime") es una estadística utilizada en la teoría de detección de señales . Proporciona la separación entre las medias de la señal y las distribuciones de ruido, comparadas con la desviación estándar de la distribución de ruido. Para señales y ruidos distribuidos normalmente con medias y desviaciones estándar y , y y , respectivamente, d′ se define como: $\mu_{S}$ $estilo de visualización {\displaystyle \sigma__{S}}$ $\mu_{N}$ $\sigma__{N}$

d^{\prime}={\frac {\mu _{S}-\mu _{N}}{\sqrt {{\frac {1}{2}}\left(\sigma _{S}^{2}+\sigma _{N}^{2}\right)}}}

^[14]

También se puede obtener una estimación de d′ a partir de las mediciones de la tasa de aciertos y de la tasa de falsas alarmas . Se calcula de la siguiente manera:

d′ = Z (tasa de aciertos) − Z (tasa de falsas alarmas), ^[15]

donde la función Z ( p ), p ∈ [0, 1], es la inversa de la distribución gaussiana acumulativa .

d′ es una estadística adimensional . Un valor de d′ más alto indica que la señal se puede detectar más fácilmente.

Matriz de confusión

La relación entre sensibilidad, especificidad y términos similares se puede entender utilizando la siguiente tabla. Considere un grupo con P casos positivos y N casos negativos de alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia 2×2 o matriz de confusión , así como derivaciones de varias métricas utilizando los cuatro resultados, de la siguiente manera:

		Condición prevista		^Fuentes:^[16]^[17]^[18]^[19]^[20]^[21]^[22]^[23] ^{vista hablar editar}
	Población total $= P + N$	Positivo previsto (PP)	Predicción negativa (PN)	Información , información de la casa de apuestas (BM) $= TPR + TNR - 1$	Umbral de prevalencia (PT) $= ⁠ \sqrt TPR \times FPR - FPR / TPR-FPR ⁠$
Estado actual	Positivo (P) ^[a]	Verdadero positivo (VP), acierto ^[b]	Falso negativo (FN), error, subestimación	Tasa de verdaderos positivos (TPR), recuperación , sensibilidad (SEN), $probabilidad$ de detección, tasa de aciertos, potencia $= TP / PAG ⁠$ $= 1 - FNR$	Tasa de falsos negativos (FNR), tasa de error tipo II ^[c] $= ⁠ Enero 2016 / PAG ⁠$ $= 1 - TPR$
Estado actual	Negativo (N) ^[d]	Falso positivo (FP), falsa alarma, sobreestimación	Verdadero negativo (VN), rechazo correcto ^[e]	Tasa de falsos positivos (FPR), probabilidad de falsa alarma, error tipo I de repercusión^[f] $= ⁠ FP / norte ⁠$ $= 1 - TNR$	Tasa de verdaderos negativos (TNR), especificidad (SPC), $selectividad$ $= Tennesse / norte ⁠$ $= 1 - FPR$
	Prevalencia $= ⁠ PAG / P + N ⁠$	Valor predictivo positivo (VPP), precisión $= ⁠ TP / PÁGINAS ⁠$ $= 1 - FDR$	Tasa de falsas omisiones (FOR) $= ⁠ Enero 2016 / PN ⁠$ $= 1 - VPN$	Razón de verosimilitud positiva (LR+) $= ⁠ TPR / FPR ⁠$	Razón de verosimilitud negativa (LR−) $= ⁠ FNR / TNR ⁠$
	Precisión (ACC) $= ⁠ TP + TN / P + N ⁠$	Tasa de falsos descubrimientos (FDR) $= ⁠ FP / PÁGINAS ⁠$ $= 1 - VPP$	Valor predictivo negativo (VPN) $= ⁠ Tennesse / PN ⁠$ $= 1 - PARA$	Marcación (MK), deltaP (Δp) $= PPV + VAN - 1$	Razón de posibilidades diagnóstica (DOR) $= ⁠ LR+ / LR- ⁠$
	Precisión equilibrada (BA) $= ⁠ TPR + TNR / 2 ⁠$	Puntuación F ₁ $= ⁠ 2 PPV \times TPR / PPV + TPR ⁠$ $= ⁠ 2 TP / 2 TP + FP + FN ⁠$	Índice de Fowlkes-Mallows (FM) $= \sqrt PPV \times TPR$	Coeficiente de correlación de Matthews (MCC) $= \sqrt TPR \times TNR \times PPV \times NPV$ $- \sqrt FNR \times FPR \times FOR \times FDR$	Puntuación de amenaza (TS), índice de éxito crítico (CSI), índice de Jaccard $= ⁠ TP / TP + FN + FP ⁠$

^ el número de casos positivos reales en los datos
^ Un resultado de prueba que indica correctamente la presencia de una condición o característica
^ Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente
^ el número de casos negativos reales en los datos
^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica
^ Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular

Un ejemplo práctico: Se aplica una prueba diagnóstica con sensibilidad del 67% y especificidad del 91% a 2030 personas para buscar un trastorno con una prevalencia poblacional del 1,48%.

		Resultado de la prueba de detección de sangre oculta en heces		^{vista hablar editar}
	Población total (población) = 2030	Resultado de la prueba positivo	Resultado de la prueba negativo	Precisión (ACC) = (TP + TN) / población = (20 + 1820) / 2030 ≈ 90,64%	Puntuación F ₁ = 2 × ⁠precisión × recuperación/precisión + recuperación⁠ ≈ 0,174
Pacientes con cáncer de intestino (confirmado mediante endoscopia )	Estado actual positivo (PA) = 30 (2030 × 1,48%)	Verdadero positivo (VP) = 20 (2030 × 1,48 % × 67 %)	Falso negativo (FN) = 10 (2030 × 1,48% × (100% − 67%) )	Tasa de verdaderos positivos (TPR), recuperación , sensibilidad = TP / PA = 20 / 30 ≈ 66,7%	Tasa de falsos negativos (FNR), tasa de errores = FN / PA = 10 / 30 ≈ 33,3%
	Condición actual negativa (AN) = 2000 (2030 × (100% − 1,48%) )	Falso positivo (FP) = 180 (2030 × (100% − 1,48%) × (100% − 91%) )	Verdadero negativo (VN) = 1820 (2030 × (100% − 1,48%) × 91%)	Tasa de falsos positivos (FPR), repercusión , probabilidad de falsa alarma = FP / AN = 180 / 2000 = 9,0%	Especificidad, selectividad, tasa de verdaderos negativos (TNR) = TN / AN = 1820 / 2000 = 91%
	Predominio = AP / poblacion = 30 / 2030 ≈ 1,48%	Valor predictivo positivo (VPP), precisión = VP / (VP + FP) = 20 / (20 + 180) = 10%	Tasa de falsas omisiones (FOR) = FN / (FN + TN) = 10 / (10 + 1820) ≈ 0,55%	Razón de verosimilitud positiva (LR+) = ⁠TPR/FPR⁠ = (20/30) / (180/2000) ≈ 7,41	Razón de verosimilitud negativa (LR−) = ⁠FNR/TNR⁠ = (10/30) / (1820/2000) ≈ 0,366
		Tasa de falsos descubrimientos (FDR) = FP / (TP + FP) = 180 / (20 + 180) = 90,0%	Valor predictivo negativo (VPN) = TN / (FN + TN) = 1820 / (10 + 1820) ≈ 99,45%	Razón de posibilidades diagnósticas (DOR) = ⁠LR+/LR−⁠ ≈ 20,2

Cálculos relacionados

Tasa de falsos positivos (α) = error tipo I = 1 − especificidad = FP / (FP + TN) = 180 / (180 + 1820) = 9%
Tasa de falsos negativos (β) = error tipo II = 1 − sensibilidad = FN / (TP + FN) = 10 / (20 + 10) ≈ 33%
Potencia = sensibilidad = 1 − β
Razón de verosimilitud positiva = sensibilidad / (1 − especificidad) ≈ 0,67 / (1 − 0,91) ≈ 7,4
Razón de verosimilitud negativa = (1 − sensibilidad) / especificidad ≈ (1 − 0,67) / 0,91 ≈ 0,37
Umbral de prevalencia = ≈ 0,2686 ≈ 26,9% $PT={\frac {{\sqrt {TPR(-TNR+1)}}+TNR-1}{(TPR+TNR-1)}}$

Esta prueba de detección hipotética (prueba de sangre oculta en heces) identificó correctamente a dos tercios (66,7 %) de los pacientes con cáncer colorrectal. ^[a] Lamentablemente, al tener en cuenta las tasas de prevalencia, se revela que esta prueba hipotética tiene una alta tasa de falsos positivos y no identifica de manera confiable el cáncer colorrectal en la población general de personas asintomáticas (VPP = 10 %).

Por otra parte, esta prueba hipotética demuestra una detección muy precisa de individuos libres de cáncer (VPN ≈ 99,5%). Por lo tanto, cuando se utiliza para el cribado sistemático del cáncer colorrectal en adultos asintomáticos, un resultado negativo aporta datos importantes para el paciente y el médico, como descartar el cáncer como causa de los síntomas gastrointestinales o tranquilizar a los pacientes preocupados por el desarrollo de cáncer colorrectal.

Estimación de errores en la sensibilidad o especificidad citadas

Los valores de sensibilidad y especificidad por sí solos pueden ser muy engañosos. La sensibilidad o especificidad del "peor caso" debe calcularse para evitar depender de experimentos con pocos resultados. Por ejemplo, una prueba particular puede mostrar fácilmente una sensibilidad del 100% si se prueba contra el estándar de oro cuatro veces, pero una sola prueba adicional contra el estándar de oro que arroje un resultado deficiente implicaría una sensibilidad de solo el 80%. Una forma común de hacer esto es indicar el intervalo de confianza de proporción binomial , a menudo calculado utilizando un intervalo de puntuación de Wilson.

Se pueden calcular intervalos de confianza para la sensibilidad y la especificidad, dando el rango de valores dentro del cual se encuentra el valor correcto en un nivel de confianza dado (por ejemplo, 95%). ^[26]

Terminología en la recuperación de información

En la recuperación de información , el valor predictivo positivo se denomina precisión y la sensibilidad se denomina recuperación . A diferencia de la disyuntiva entre especificidad y sensibilidad, estas medidas son independientes de la cantidad de negativos verdaderos, que generalmente es desconocida y mucho mayor que la cantidad real de documentos relevantes y recuperados. Esta suposición de una cantidad muy grande de negativos verdaderos frente a positivos es poco común en otras aplicaciones. ^[13]

La puntuación F se puede utilizar como medida única del rendimiento de la prueba para la clase positiva. La puntuación F es la media armónica de la precisión y la recuperación:

F=2\times {\frac {{\text{precisión}}\times {\text{recuperación}}}{{\text{precisión}}+{\text{recuperación}}}}

En el lenguaje tradicional de las pruebas de hipótesis estadísticas , la sensibilidad de una prueba se denomina potencia estadística de la prueba, aunque la palabra potencia en ese contexto tiene un uso más general que no es aplicable en el presente contexto. Una prueba sensible tendrá menos errores de tipo II .

Terminología en el análisis del genoma

De manera similar al dominio de la recuperación de información , en el área de investigación de predicción genética , el número de verdaderos negativos (no genes) en secuencias genómicas es generalmente desconocido y mucho mayor que el número real de genes (verdaderos positivos). El término conveniente e intuitivamente entendido especificidad en esta área de investigación se ha utilizado con frecuencia con la fórmula matemática para precisión y recuperación según se define en bioestadística. El par de especificidad así definida (como valor predictivo positivo) y sensibilidad (tasa de verdaderos positivos) representa parámetros principales que caracterizan la precisión de los algoritmos de predicción genética. ^[27] ^[28] ^[29] ^[30] Por el contrario, el término especificidad en un sentido de tasa de verdaderos negativos tendría poca, si es que tiene alguna, aplicación en el área de investigación del análisis del genoma.

Véase también

Notas

^ Todas las pruebas de detección médica tienen ventajas y desventajas. Las guías de práctica clínica , como las de detección del cáncer colorrectal, describen estos riesgos y beneficios. ^[24]^[25]

Referencias

^ Yerushalmy J (1947). "Problemas estadísticos en la evaluación de métodos de diagnóstico médico con especial referencia a las técnicas de rayos X". Public Health Reports . 62 (2): 1432–39. doi :10.2307/4586294. JSTOR 4586294. PMID 20340527. S2CID 19967899.
^ Saah AJ, Hoover DR (1998). "[Revisión de la sensibilidad y la especificidad: importancia de los términos en el lenguaje analítico y diagnóstico]". Ann Dermatol Venereol . 125 (4): 291–4. PMID 9747274.
^ Parikh R, Mathai A, Parikh S, Chandra Sekhar G, Thomas R (2008). "Comprensión y uso de la sensibilidad, la especificidad y los valores predictivos". Indian Journal of Ophthalmology . 56 (1): 45–50. doi : 10.4103/0301-4738.37595 . PMC 2636062 . PMID 18158403.
^ ab Altman DG, Bland JM (junio de 1994). "Pruebas diagnósticas. 1: Sensibilidad y especificidad". BMJ . 308 (6943): 1552. doi :10.1136/bmj.308.6943.1552. PMC 2540489 . PMID 8019315.
^ "SpPin y SnNout". Centro de Medicina Basada en la Evidencia (CEBM) . Consultado el 18 de enero de 2023 .
^ Mangrulkar R. "Razonamiento diagnóstico I y II". Archivado desde el original el 1 de agosto de 2011. Consultado el 24 de enero de 2012 .
^ "Diagnóstico basado en evidencia". Universidad Estatal de Michigan. Archivado desde el original el 6 de julio de 2013. Consultado el 23 de agosto de 2013 .
^ "Sensibilidad y especificidad". Curso de Medicina basada en la evidencia de la Facultad de Medicina de la Universidad Emory.
^ Baron JA (abril-junio de 1994). "Es una lástima que no sea cierto". Toma de decisiones médicas . 14 (2): 107. doi :10.1177/0272989X9401400202. PMID 8028462. S2CID 44505648.
^ Boyko EJ (abril-junio de 1994). "Descartar o confirmar una enfermedad con la prueba diagnóstica más sensible o específica: ¿atajo o camino equivocado?". Toma de decisiones médicas . 14 (2): 175-9. doi :10.1177/0272989X9401400210. PMID 8028470. S2CID 31400167.
^ Pewsner D, Battaglia M, Minder C, Marx A, Bucher HC, Egger M (julio de 2004). "Descartar o confirmar un diagnóstico con "SpPIn" y "SnNOut": una nota de precaución". BMJ . 329 (7459): 209–13. doi :10.1136/bmj.329.7459.209. PMC 487735 . PMID 15271832.
^ Fawcett T (2006). "Introducción al análisis ROC". Pattern Recognition Letters . 27 (8): 861–874. Código Bibliográfico :2006PaReL..27..861F. CiteSeerX 10.1.1.646.2144 . doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ ab Powers DM (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
^ Gale SD, Perkel DJ (enero de 2010). "Una vía de los ganglios basales impulsa respuestas auditivas selectivas en las neuronas dopaminérgicas de los pájaros cantores a través de la desinhibición". The Journal of Neuroscience . 30 (3): 1027–37. doi :10.1523/JNEUROSCI.3585-09.2010. PMC 2824341 . PMID 20089911.
^ Macmillan NA, Creelman CD (15 de septiembre de 2004). Teoría de la detección: guía del usuario. Psychology Press. pág. 7. ISBN 978-1-4106-1114-7.
^ Fawcett T (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ Provost F, Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
^ Powers DM (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
^ Ting KM (2011). Sammut C, Webb GI (eds.). Enciclopedia de aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN . 978-0-387-30164-8.
^ Brooks H, Brown B, Ebert B, Ferro C, Jolliffe I, Koh TY, Roebber P, Stephenson D (26 de enero de 2015). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410.
^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
^ Lin JS, Piper MA, Perdue LA, Rutter CM, Webber EM, O'Connor E, Smith N, Whitlock EP (21 de junio de 2016). "Detección del cáncer colorrectal". JAMA . 315 (23): 2576–2594. doi :10.1001/jama.2016.3332. ISSN 0098-7484. PMID 27305422.
^ Bénard F, Barkun AN, Martel M, Renteln Dv (7 de enero de 2018). "Revisión sistemática de las pautas de detección del cáncer colorrectal para adultos con riesgo promedio: resumen de las recomendaciones globales actuales". Revista Mundial de Gastroenterología . 24 (1): 124–138. doi : 10.3748/wjg.v24.i1.124 . PMC 5757117 . PMID 29358889.
^ "La calculadora en línea de pruebas de diagnóstico calcula la sensibilidad, la especificidad, los cocientes de probabilidad y los valores predictivos a partir de una tabla de 2x2: calculadora de intervalos de confianza para parámetros predictivos". medcalc.org .
^ Burge C , Karlin S (1997). "Predicción de estructuras génicas completas en el ADN genómico humano" (PDF) . Journal of Molecular Biology . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . doi :10.1006/jmbi.1997.0951. PMID 9149143. Archivado desde el original (PDF) el 20 de junio de 2015.
^ "GeneMark-ES". Lomsadze A (2005). "Descubrimiento de genes en genomas nuevos mediante algoritmos de autoentrenamiento". Nucleic Acids Research . 33 (20): 6494–6906. doi :10.1093/nar/gki937. PMC 1298918 . PMID 16314312.
^ Korf I (2004). "Descubrimiento de genes en genomas nuevos". BMC Bioinformatics . 5 : 59. doi : 10.1186/1471-2105-5-59 . PMC 421630 . PMID 15144565.
^ Yandell M, Ence D (abril de 2012). "Guía para principiantes sobre la anotación del genoma eucariota". Nature Reviews. Genética . 13 (5): 329–42. doi :10.1038/nrg3174. PMID 22510764. S2CID 3352427.

Lectura adicional

Altman DG, Bland JM (junio de 1994). "Pruebas diagnósticas. 1: Sensibilidad y especificidad". BMJ . 308 (6943): 1552. doi :10.1136/bmj.308.6943.1552. PMC 2540489 . PMID 8019315.
Loong TW (septiembre de 2003). "Comprensión de la sensibilidad y especificidad del lado derecho del cerebro". BMJ . 327 (7417): 716–9. doi :10.1136/bmj.327.7417.716. PMC 200804 . PMID 14512479.

Enlaces externos

Calculadora UIC
Calculadora de sensibilidad y especificidad de Vassar College
Calculadora gratuita en línea MedCalc
Subprograma de modelo de diagnóstico clínico bayesiano

[24] úmero de casos positivos reales en los datos

[25] Un resultado de prueba que indica correctamente la presencia de una condición o característica

[26] Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente

[27] úmero de casos negativos reales en los datos

[28] Un resultado de prueba que indica correctamente la ausencia de una condición o característica

[29] Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular

[32] Todas las pruebas de detección médica tienen ventajas y desventajas. Las guías de práctica clínica , como las de detección del cáncer colorrectal, describen estos riesgos y beneficios. ^[24]^[25]

[1] Yerushalmy J (1947). "Problemas estadísticos en la evaluación de métodos de diagnóstico médico con especial referencia a las técnicas de rayos X". Public Health Reports . 62 (2): 1432–39. doi :10.2307/4586294. JSTOR 4586294. PMID 20340527. S2CID 19967899.

[Saah1998-2] Saah AJ, Hoover DR (1998). "[Revisión de la sensibilidad y la especificidad: importancia de los términos en el lenguaje analítico y diagnóstico]". Ann Dermatol Venereol . 125 (4): 291–4. PMID 9747274.

[3] Parikh R, Mathai A, Parikh S, Chandra Sekhar G, Thomas R (2008). "Comprensión y uso de la sensibilidad, la especificidad y los valores predictivos". Indian Journal of Ophthalmology . 56 (1): 45–50. doi : 10.4103/0301-4738.37595 . PMC 2636062 . PMID 18158403.

[BMJ-4] Altman DG, Bland JM (junio de 1994). "Pruebas diagnósticas. 1: Sensibilidad y especificidad". BMJ . 308 (6943): 1552. doi :10.1136/bmj.308.6943.1552. PMC 2540489 . PMID 8019315.

[cebm-5] "SpPin y SnNout". Centro de Medicina Basada en la Evidencia (CEBM) . Consultado el 18 de enero de 2023 .

[6] Mangrulkar R. "Razonamiento diagnóstico I y II". Archivado desde el original el 1 de agosto de 2011. Consultado el 24 de enero de 2012 .

[7] "Diagnóstico basado en evidencia". Universidad Estatal de Michigan. Archivado desde el original el 6 de julio de 2013. Consultado el 23 de agosto de 2013 .

[8] "Sensibilidad y especificidad". Curso de Medicina basada en la evidencia de la Facultad de Medicina de la Universidad Emory.

[pmid8028462-9] Baron JA (abril-junio de 1994). "Es una lástima que no sea cierto". Toma de decisiones médicas . 14 (2): 107. doi :10.1177/0272989X9401400202. PMID 8028462. S2CID 44505648.

[pmid8028470-10] Boyko EJ (abril-junio de 1994). "Descartar o confirmar una enfermedad con la prueba diagnóstica más sensible o específica: ¿atajo o camino equivocado?". Toma de decisiones médicas . 14 (2): 175-9. doi :10.1177/0272989X9401400210. PMID 8028470. S2CID 31400167.

[pmid15271832-11] Pewsner D, Battaglia M, Minder C, Marx A, Bucher HC, Egger M (julio de 2004). "Descartar o confirmar un diagnóstico con "SpPIn" y "SnNOut": una nota de precaución". BMJ . 329 (7459): 209–13. doi :10.1136/bmj.329.7459.209. PMC 487735 . PMID 15271832.

[Fawcett2006-12] Fawcett T (2006). "Introducción al análisis ROC". Pattern Recognition Letters . 27 (8): 861–874. Código Bibliográfico :2006PaReL..27..861F. CiteSeerX 10.1.1.646.2144 . doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.

[Powers2011-13] Powers DM (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.

[pmid20089911-14] Gale SD, Perkel DJ (enero de 2010). "Una vía de los ganglios basales impulsa respuestas auditivas selectivas en las neuronas dopaminérgicas de los pájaros cantores a través de la desinhibición". The Journal of Neuroscience . 30 (3): 1027–37. doi :10.1523/JNEUROSCI.3585-09.2010. PMC 2824341 . PMID 20089911.

[MacmillanCreelman2004-15] Macmillan NA, Creelman CD (15 de septiembre de 2004). Teoría de la detección: guía del usuario. Psychology Press. pág. 7. ISBN 978-1-4106-1114-7.

[16] Fawcett T (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.

[17] Provost F, Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.

[18] Powers DM (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.

[19] Ting KM (2011). Sammut C, Webb GI (eds.). Enciclopedia de aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN . 978-0-387-30164-8.

[20] Brooks H, Brown B, Ebert B, Ferro C, Jolliffe I, Koh TY, Roebber P, Stephenson D (26 de enero de 2015). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .

[21] Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.

[22] Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410.

[23] Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .

[30] Lin JS, Piper MA, Perdue LA, Rutter CM, Webber EM, O'Connor E, Smith N, Whitlock EP (21 de junio de 2016). "Detección del cáncer colorrectal". JAMA . 315 (23): 2576–2594. doi :10.1001/jama.2016.3332. ISSN 0098-7484. PMID 27305422.

[31] Bénard F, Barkun AN, Martel M, Renteln Dv (7 de enero de 2018). "Revisión sistemática de las pautas de detección del cáncer colorrectal para adultos con riesgo promedio: resumen de las recomendaciones globales actuales". Revista Mundial de Gastroenterología . 24 (1): 124–138. doi : 10.3748/wjg.v24.i1.124 . PMC 5757117 . PMID 29358889.

[33] "La calculadora en línea de pruebas de diagnóstico calcula la sensibilidad, la especificidad, los cocientes de probabilidad y los valores predictivos a partir de una tabla de 2x2: calculadora de intervalos de confianza para parámetros predictivos". medcalc.org .

[:0-34] Burge C , Karlin S (1997). "Predicción de estructuras génicas completas en el ADN genómico humano" (PDF) . Journal of Molecular Biology . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . doi :10.1006/jmbi.1997.0951. PMID 9149143. Archivado desde el original (PDF) el 20 de junio de 2015.

[35] "GeneMark-ES". Lomsadze A (2005). "Descubrimiento de genes en genomas nuevos mediante algoritmos de autoentrenamiento". Nucleic Acids Research . 33 (20): 6494–6906. doi :10.1093/nar/gki937. PMC 1298918 . PMID 16314312.

[36] Korf I (2004). "Descubrimiento de genes en genomas nuevos". BMC Bioinformatics . 5 : 59. doi : 10.1186/1471-2105-5-59 . PMC 421630 . PMID 15144565.

[Yandell2012-37] Yandell M, Ence D (abril de 2012). "Guía para principiantes sobre la anotación del genoma eucariota". Nature Reviews. Genética . 13 (5): 329–42. doi :10.1038/nrg3174. PMID 22510764. S2CID 3352427.