This article needs additional citations for verification. (September 2023) |
Una curva característica operativa del receptor , o curva ROC , es un gráfico que ilustra el rendimiento de un modelo de clasificador binario (también puede usarse para clasificación de múltiples clases) en valores de umbral variables.
La curva ROC es el gráfico de la tasa de positivos verdaderos (TPR) frente a la tasa de positivos falsos (FPR) en cada ajuste de umbral.
La curva ROC también puede considerarse como un gráfico de la potencia estadística en función del error de tipo I de la regla de decisión (cuando el rendimiento se calcula a partir de una muestra de la población, puede considerarse como un estimador de estas cantidades). La curva ROC es, por tanto, la sensibilidad en función de la tasa de falsos positivos .
Dado que se conocen las distribuciones de probabilidad tanto para los verdaderos positivos como para los falsos positivos, la curva ROC se obtiene como la función de distribución acumulativa (CDF, área bajo la distribución de probabilidad desde hasta el umbral de discriminación) de la probabilidad de detección en el eje y frente a la CDF de la probabilidad de falsos positivos en el eje x .
El análisis ROC proporciona herramientas para seleccionar modelos posiblemente óptimos y descartar los subóptimos independientemente (y antes de especificar) del contexto de costos o la distribución de clases. El análisis ROC está relacionado de manera directa y natural con el análisis de costo/beneficio de la toma de decisiones diagnósticas .
La tasa de verdaderos positivos también se conoce como sensibilidad o probabilidad de detección . [1] La tasa de falsos positivos también se conoce como probabilidad de falsa alarma [1] y es igual a (1 − especificidad ). La ROC también se conoce como curva característica operativa relativa, porque es una comparación de dos características operativas (TPR y FPR) a medida que cambia el criterio. [2]
La curva ROC fue desarrollada por primera vez por ingenieros eléctricos e ingenieros de radar durante la Segunda Guerra Mundial para detectar objetos enemigos en los campos de batalla, a partir de 1941, lo que dio lugar a su nombre ("característica operativa del receptor"). [3]
Pronto se introdujo en la psicología para explicar la detección perceptiva de estímulos. El análisis ROC se ha utilizado en medicina , radiología , biometría , pronóstico de peligros naturales , [4] meteorología , [5] evaluación del rendimiento de modelos, [6] y otras áreas durante muchas décadas y se utiliza cada vez más en la investigación de minería de datos y aprendizaje automático .
Un modelo de clasificación ( clasificador o diagnóstico [7] ) es un mapeo de instancias entre ciertas clases/grupos. Debido a que el resultado del clasificador o diagnóstico puede ser un valor real arbitrario (salida continua), el límite del clasificador entre clases debe determinarse mediante un valor umbral (por ejemplo, para determinar si una persona tiene hipertensión según una medición de la presión arterial ). O puede ser una etiqueta de clase discreta , que indica una de las clases.
Considere un problema de predicción de dos clases ( clasificación binaria ), en el que los resultados se etiquetan como positivos ( p ) o negativos ( n ). Hay cuatro resultados posibles de un clasificador binario. Si el resultado de una predicción es p y el valor real también es p , entonces se llama verdadero positivo (VP); sin embargo, si el valor real es n, entonces se dice que es un falso positivo (FP). Por el contrario, se ha producido un verdadero negativo (TN) cuando tanto el resultado de la predicción como el valor real son n , y un falso negativo (FN) es cuando el resultado de la predicción es n mientras que el valor real es p .
Para obtener un ejemplo adecuado en un problema del mundo real, considere una prueba diagnóstica que busca determinar si una persona tiene una determinada enfermedad. En este caso, un falso positivo ocurre cuando la persona da positivo en la prueba, pero en realidad no tiene la enfermedad. Por otro lado, un falso negativo ocurre cuando la persona da negativo en la prueba, lo que sugiere que está sana, cuando en realidad tiene la enfermedad.
Consideremos un experimento con P casos positivos y N casos negativos para alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia o matriz de confusión de 2×2 , de la siguiente manera:
Condición prevista | Fuentes: [8] [9] [10] [11] [12] [13] [14] [15] | ||||
Población total = P + N | Positivo previsto (PP) | Predicción negativa (PN) | Información , información de la casa de apuestas (BM) = TPR + TNR − 1 | Umbral de prevalencia (PT) = √ TPR × FPR - FPR/TPR-FPR | |
Estado actual | Positivo (P) [a] | Verdadero positivo (VP), acierto [b] | Falso negativo (FN), error, subestimación | Tasa de verdaderos positivos (TPR), recuperación , sensibilidad (SEN), probabilidad de detección, tasa de aciertos, potencia =TP/PAG = 1 − FNR | Tasa de falsos negativos (FNR), tasa de error tipo II [c] = Enero 2016/PAG = 1 − TPR |
Negativo (N) [d] | Falso positivo (FP), falsa alarma, sobreestimación | Verdadero negativo (VN), rechazo correcto [e] | Tasa de falsos positivos (FPR), probabilidad de falsa alarma, error tipo I de repercusión [f] = FP/norte = 1 − TNR | Tasa de verdaderos negativos (TNR), especificidad (SPC), selectividad =Tennesse/norte = 1 − FPR | |
Prevalencia = PAG/P + N | Valor predictivo positivo (VPP), precisión = TP/PÁGINAS = 1 − FDR | Tasa de falsas omisiones (FOR) = Enero 2016/PN = 1 − VPN | Razón de verosimilitud positiva (LR+) = Reanimación térmica/FPR | Razón de verosimilitud negativa (LR−) = FNR/TNR | |
Precisión (ACC) = TP + TN/P + N | Tasa de falsos descubrimientos (FDR) = FP/PÁGINAS = 1 − VPP | Valor predictivo negativo (VPN) = Tennesse/PN = 1 − PARA | Marcación (MK), deltaP (Δp) = PPV + VAN − 1 | Razón de posibilidades diagnóstica (DOR) = LR+/LR− | |
Precisión equilibrada (BA) = TPR + TNR/2 | Puntuación F 1 = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN | Índice de Fowlkes-Mallows (FM) = √ PPV × TPR | Coeficiente de correlación de Matthews (MCC) = √ TPR × TNR × PPV × NPV - √ FNR × FPR × FOR × FDR | Puntuación de amenaza (TS), índice de éxito crítico (CSI), índice de Jaccard = TP/TP + FN + FP |
La tabla de contingencia puede derivar varias "métricas" de evaluación (ver cuadro de información). Para dibujar una curva ROC, solo se necesitan la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) (como funciones de algún parámetro clasificador). La TPR define cuántos resultados positivos correctos ocurren entre todas las muestras positivas disponibles durante la prueba. La FPR, por otro lado, define cuántos resultados positivos incorrectos ocurren entre todas las muestras negativas disponibles durante la prueba.
Un espacio ROC se define por FPR y TPR como ejes x e y , respectivamente, que representan las compensaciones relativas entre verdaderos positivos (beneficios) y falsos positivos (costos). Dado que TPR es equivalente a sensibilidad y FPR es igual a 1 − especificidad , el gráfico ROC a veces se denomina gráfico de sensibilidad vs. (1 − especificidad). Cada resultado de predicción o instancia de una matriz de confusión representa un punto en el espacio ROC.
El mejor método de predicción posible produciría un punto en la esquina superior izquierda o coordenada (0,1) del espacio ROC, lo que representa una sensibilidad del 100% (sin falsos negativos) y una especificidad del 100% (sin falsos positivos). El punto (0,1) también se denomina clasificación perfecta . Una suposición aleatoria daría un punto a lo largo de una línea diagonal (la llamada línea de no discriminación ) desde la esquina inferior izquierda hasta la esquina superior derecha (independientemente de las tasas base positivas y negativas ). [16] Un ejemplo intuitivo de suposición aleatoria es una decisión al lanzar monedas. A medida que aumenta el tamaño de la muestra, el punto ROC de un clasificador aleatorio tiende hacia la línea diagonal. En el caso de una moneda equilibrada, tenderá al punto (0,5, 0,5).
La diagonal divide el espacio ROC. Los puntos por encima de la diagonal representan buenos resultados de clasificación (mejores que los aleatorios); los puntos por debajo de la línea representan malos resultados (peores que los aleatorios). Tenga en cuenta que el resultado de un predictor consistentemente malo podría simplemente invertirse para obtener un buen predictor.
Considere cuatro resultados de predicción de 100 instancias positivas y 100 negativas:
A | B | do | DO' | ||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
| ||||||||||||||||||||||||||||||||||||
TPR = 0,63 | TPR = 0,77 | TPR = 0,24 | TPR = 0,76 | ||||||||||||||||||||||||||||||||||||
FPR = 0,28 | Tasa de refracción efectiva (FPR) = 0,77 | Tasa de refracción efectiva (FPR) = 0,88 | FPR = 0,12 | ||||||||||||||||||||||||||||||||||||
VPP = 0,69 | VPP = 0,50 | VPP = 0,21 | VPP = 0,86 | ||||||||||||||||||||||||||||||||||||
F1 = 0,66 | F1 = 0,61 | F1 = 0,23 | F1 = 0,81 | ||||||||||||||||||||||||||||||||||||
CAC = 0,68 | CAC = 0,50 | CAC = 0,18 | CAC = 0,82 |
En la figura se muestran los gráficos de los cuatro resultados anteriores en el espacio ROC. El resultado del método A muestra claramente el mejor poder predictivo entre A , B y C. El resultado de B se encuentra en la línea de conjetura aleatoria (la línea diagonal) y se puede ver en la tabla que la precisión de B es del 50 %. Sin embargo, cuando C se refleja en el punto central (0,5, 0,5), el método resultante C′ es incluso mejor que A. Este método reflejado simplemente invierte las predicciones de cualquier método o prueba que haya producido la tabla de contingencia C. Aunque el método C original tiene un poder predictivo negativo, simplemente invertir sus decisiones conduce a un nuevo método predictivo C′ que tiene un poder predictivo positivo. Cuando el método C predice p o n , el método C′ predeciría n o p , respectivamente. De esta manera, la prueba C′ tendría el mejor rendimiento. Cuanto más cerca esté el resultado de una tabla de contingencia de la esquina superior izquierda, mejor será la predicción, pero la distancia desde la línea de conjetura aleatoria en cualquier dirección es el mejor indicador de cuánto poder predictivo tiene un método. Si el resultado está por debajo de la línea (es decir, el método es peor que una conjetura aleatoria), todas las predicciones del método deben invertirse para utilizar su poder, moviendo así el resultado por encima de la línea de conjetura aleatoria.
En la clasificación binaria, la predicción de clase para cada instancia se hace a menudo en base a una variable aleatoria continua , que es una "puntuación" calculada para la instancia (por ejemplo, la probabilidad estimada en regresión logística). Dado un parámetro de umbral , la instancia se clasifica como "positiva" si , y "negativa" en caso contrario. sigue una densidad de probabilidad si la instancia pertenece realmente a la clase "positiva", y si no. Por lo tanto, la tasa de verdaderos positivos viene dada por y la tasa de falsos positivos viene dada por . La curva ROC se traza paramétricamente frente a con como parámetro variable.
Por ejemplo, imaginemos que los niveles de proteínas en sangre de personas enfermas y sanas se distribuyen normalmente con medias de 2 g / dL y 1 g/dL respectivamente. Una prueba médica podría medir el nivel de una determinada proteína en una muestra de sangre y clasificar cualquier número por encima de un determinado umbral como indicador de enfermedad. El experimentador puede ajustar el umbral (línea vertical verde en la figura), lo que a su vez cambiará la tasa de falsos positivos. Aumentar el umbral daría como resultado menos falsos positivos (y más falsos negativos), lo que corresponde a un movimiento hacia la izquierda en la curva. La forma real de la curva está determinada por el grado de superposición que tengan las dos distribuciones.
Varios estudios critican ciertas aplicaciones de la curva ROC y su área bajo la curva como medidas para evaluar clasificaciones binarias cuando no capturan la información relevante para la aplicación. [18] [17] [19] [20] [21]
La principal crítica a la curva ROC descrita en estos estudios se refiere a la incorporación de áreas con baja sensibilidad y baja especificidad (ambas inferiores a 0,5) para el cálculo del área total bajo la curva (AUC), [19] como se describe en el gráfico de la derecha.
Según los autores de estos estudios, esa porción del área bajo la curva (con baja sensibilidad y baja especificidad) se refiere a matrices de confusión donde las predicciones binarias obtienen malos resultados y, por lo tanto, no se debe incluir para la evaluación del desempeño general. Además, esa porción del AUC indica un espacio con un umbral de matriz de confusión alto o bajo, lo que rara vez es de interés para los científicos que realizan una clasificación binaria en cualquier campo. [19]
Otra crítica al ROC y su área bajo la curva es que no dicen nada sobre la precisión y el valor predictivo negativo. [17]
Un AUC ROC alto, como por ejemplo 0,9, podría corresponder a valores bajos de precisión y valor predictivo negativo, como 0,2 y 0,1 en el rango [0, 1]. Si una persona realizó una clasificación binaria, obtuvo un AUC ROC de 0,9 y decidió centrarse solo en esta métrica, podría creer de manera demasiado optimista que su prueba binaria fue excelente. Sin embargo, si esta persona observara los valores de precisión y valor predictivo negativo, podría descubrir que sus valores son bajos.
El AUC ROC resume la sensibilidad y especificidad, pero no informa sobre la precisión y el valor predictivo negativo. [17]
En ocasiones, el ROC se utiliza para generar una estadística resumida. Las versiones más comunes son:
Sin embargo, cualquier intento de resumir la curva ROC en un solo número pierde información sobre el patrón de compensaciones del algoritmo discriminador particular.
El área bajo la curva (a menudo denominada simplemente AUC) es igual a la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar por encima de una negativa elegida al azar (asumiendo que "positivo" se clasifica por encima de "negativo"). [26] En otras palabras, cuando se da una instancia positiva seleccionada al azar y una instancia negativa seleccionada al azar, el AUC es la probabilidad de que el clasificador pueda decir cuál es cuál.
Esto se puede ver de la siguiente manera: el área bajo la curva está dada por (los límites integrales se invierten ya que el umbral grande tiene un valor menor en el eje x )
donde es la puntuación para una instancia positiva y es la puntuación para una instancia negativa, y y son densidades de probabilidad como se definieron en la sección anterior.
Si y sigue dos distribuciones gaussianas, entonces .
Se puede demostrar que el AUC está estrechamente relacionado con la U de Mann-Whitney [ 27] [28] , que prueba si los positivos tienen una clasificación más alta que los negativos. Para un predictor , un estimador imparcial de su AUC se puede expresar mediante la siguiente estadística de Wilcoxon-Mann-Whitney : [29]
donde denota una función indicadora que devuelve 1 si en caso contrario devuelve 0; es el conjunto de ejemplos negativos, y es el conjunto de ejemplos positivos.
En el contexto de la calificación crediticia , a menudo se utiliza una versión reescalada del AUC:
.
se denomina índice de Gini o coeficiente de Gini, [30] pero no debe confundirse con la medida de dispersión estadística que también se denomina coeficiente de Gini . es un caso especial de la D de Somers .
También es común calcular el área bajo la envoltura convexa ROC (ROC AUCH = ROCH AUC) ya que cualquier punto en el segmento de línea entre dos resultados de predicción se puede lograr usando aleatoriamente uno u otro sistema con probabilidades proporcionales a la longitud relativa del componente opuesto del segmento. [31] También es posible invertir concavidades – tal como en la figura la peor solución puede reflejarse para convertirse en una mejor solución; las concavidades se pueden reflejar en cualquier segmento de línea, pero es mucho más probable que esta forma más extrema de fusión sobreajuste los datos. [32]
La comunidad de aprendizaje automático utiliza con mayor frecuencia la estadística ROC AUC para la comparación de modelos. [33] Esta práctica ha sido cuestionada porque las estimaciones de AUC son bastante ruidosas y sufren otros problemas. [34] [35] [36] No obstante, la coherencia del AUC como medida del rendimiento de la clasificación agregada ha sido reivindicada, en términos de una distribución de tasa uniforme, [37] y el AUC se ha vinculado a una serie de otras métricas de rendimiento como la puntuación Brier . [38]
Otro problema con el AUC ROC es que reducir la curva ROC a un solo número ignora el hecho de que se trata de las compensaciones entre los diferentes sistemas o puntos de rendimiento graficados y no del rendimiento de un sistema individual, así como ignora la posibilidad de reparación de la concavidad, por lo que se recomiendan medidas alternativas relacionadas como Informedness [ cita requerida ] o DeltaP. [23] [39] Estas medidas son esencialmente equivalentes al Gini para un solo punto de predicción con DeltaP' = Informedness = 2AUC-1, mientras que DeltaP = Markedness representa el dual (es decir, predecir la predicción a partir de la clase real) y su media geométrica es el coeficiente de correlación de Matthews . [ cita requerida ]
Mientras que el AUC de ROC varía entre 0 y 1 (con un clasificador no informativo que produce 0,5), las medidas alternativas conocidas como Informalidad , [ cita requerida ] Certidumbre [23] y Coeficiente de Gini (en el caso de parametrización única o sistema único) [ cita requerida ] tienen todas la ventaja de que 0 representa el desempeño aleatorio, mientras que 1 representa el desempeño perfecto y −1 representa el caso "perverso" de plena información que siempre da la respuesta incorrecta. [40] Llevar el desempeño aleatorio a 0 permite que estas escalas alternativas se interpreten como estadísticas Kappa. Se ha demostrado que la Informalidad tiene características deseables para el aprendizaje automático frente a otras definiciones comunes de Kappa, como Cohen Kappa y Fleiss Kappa . [ cita requerida ] [41]
A veces puede ser más útil observar una región específica de la curva ROC en lugar de la curva completa. Es posible calcular el AUC parcial . [42] Por ejemplo, uno podría centrarse en la región de la curva con una baja tasa de falsos positivos, que a menudo es de gran interés para las pruebas de detección de la población. [43] Otro enfoque común para los problemas de clasificación en los que P ≪ N (común en aplicaciones de bioinformática) es utilizar una escala logarítmica para el eje x . [44]
El área ROC bajo la curva también se denomina estadística c o estadística c . [45]
La característica operativa total (TOC) también caracteriza la capacidad de diagnóstico al tiempo que revela más información que la ROC. Para cada umbral, la ROC revela dos proporciones, TP/(TP + FN) y FP/(FP + TN). En otras palabras, la ROC revela y . Por otro lado, la TOC muestra la información total en la tabla de contingencia para cada umbral. [46] El método TOC revela toda la información que proporciona el método ROC, más información importante adicional que la ROC no revela, es decir, el tamaño de cada entrada en la tabla de contingencia para cada umbral. La TOC también proporciona la popular AUC de la ROC. [47]
Estas cifras son las curvas TOC y ROC que utilizan los mismos datos y umbrales. Considere el punto que corresponde a un umbral de 74. La curva TOC muestra el número de aciertos, que es 3, y, por lo tanto, el número de errores, que es 7. Además, la curva TOC muestra que el número de falsas alarmas es 4 y el número de rechazos correctos es 16. En cualquier punto dado en la curva ROC, es posible obtener valores para las razones de y . Por ejemplo, en el umbral 74, es evidente que la coordenada x es 0,2 y la coordenada y es 0,3. Sin embargo, estos dos valores son insuficientes para construir todas las entradas de la tabla de contingencia subyacente de dos por dos.
Una alternativa a la curva ROC es el gráfico de compensación de error de detección (DET), que traza la tasa de falsos negativos (detecciones fallidas) frente a la tasa de falsos positivos (falsas alarmas) en los ejes x e y transformados de forma no lineal. La función de transformación es la función cuantil de la distribución normal, es decir, la inversa de la distribución normal acumulativa. Es, de hecho, la misma transformación que zROC, a continuación, excepto que se utiliza el complemento de la tasa de aciertos, la tasa de errores o la tasa de falsos negativos. Esta alternativa dedica más área gráfica a la región de interés. La mayor parte del área ROC es de poco interés; uno se preocupa principalmente por la región ajustada al eje y y la esquina superior izquierda, que, debido a que se utiliza la tasa de errores en lugar de su complemento, la tasa de aciertos, es la esquina inferior izquierda en un gráfico DET. Además, los gráficos DET tienen la propiedad útil de linealidad y un comportamiento de umbral lineal para distribuciones normales. [48] El gráfico DET se utiliza ampliamente en la comunidad de reconocimiento automático de hablantes , donde se utilizó por primera vez el nombre DET. El análisis del rendimiento ROC en gráficos con esta deformación de los ejes fue utilizado por psicólogos en estudios de percepción a mediados del siglo XX, [ cita requerida ] donde esto fue denominado "trabajo de doble probabilidad". [49]
Si se aplica una puntuación estándar a la curva ROC, la curva se transformará en una línea recta. [50] Esta puntuación z se basa en una distribución normal con una media de cero y una desviación estándar de uno. En la teoría de la fuerza de la memoria , se debe asumir que la zROC no solo es lineal, sino que tiene una pendiente de 1,0. Las distribuciones normales de objetivos (objetos estudiados que los sujetos necesitan recordar) y señuelos (objetos no estudiados que los sujetos intentan recordar) son el factor que hace que la zROC sea lineal.
La linealidad de la curva zROC depende de las desviaciones estándar de las distribuciones de fuerza del objetivo y del señuelo. Si las desviaciones estándar son iguales, la pendiente será 1,0. Si la desviación estándar de la distribución de fuerza del objetivo es mayor que la desviación estándar de la distribución de fuerza del señuelo, entonces la pendiente será menor que 1,0. En la mayoría de los estudios, se ha encontrado que las pendientes de la curva zROC caen constantemente por debajo de 1, generalmente entre 0,5 y 0,9. [51] Muchos experimentos arrojaron una pendiente zROC de 0,8. Una pendiente de 0,8 implica que la variabilidad de la distribución de fuerza del objetivo es un 25 % mayor que la variabilidad de la distribución de fuerza del señuelo. [52]
Otra variable utilizada es d' (d prima) (discutida anteriormente en "Otras medidas"), que puede expresarse fácilmente en términos de valores z. Aunque d ' es un parámetro de uso común, debe reconocerse que solo es relevante cuando se adhiere estrictamente a los supuestos muy sólidos de la teoría de la fuerza que se hicieron anteriormente. [53]
La puntuación z de una curva ROC es siempre lineal, como se supone, excepto en situaciones especiales. El modelo de familiaridad-recuerdo de Yonelinas es una explicación bidimensional de la memoria de reconocimiento. En lugar de que el sujeto simplemente responda sí o no a una entrada específica, el sujeto le da a la entrada una sensación de familiaridad, que funciona como la curva ROC original. Lo que cambia, sin embargo, es un parámetro para el Recuerdo (R). Se supone que el recuerdo es todo o nada, y triunfa sobre la familiaridad. Si no hubiera un componente de recuerdo, zROC tendría una pendiente prevista de 1. Sin embargo, al agregar el componente de recuerdo, la curva zROC será cóncava hacia arriba, con una pendiente reducida. Esta diferencia en forma y pendiente resulta de un elemento adicional de variabilidad debido a que se recuerdan algunos elementos. Los pacientes con amnesia anterógrada son incapaces de recordar, por lo que su curva zROC de Yonelinas tendría una pendiente cercana a 1,0. [54]
La curva ROC se utilizó por primera vez durante la Segunda Guerra Mundial para el análisis de señales de radar antes de emplearse en la teoría de detección de señales . [55] Después del ataque a Pearl Harbor en 1941, el ejército de los Estados Unidos comenzó una nueva investigación para aumentar la predicción de aviones japoneses detectados correctamente a partir de sus señales de radar. Para estos fines, midieron la capacidad de un operador de receptor de radar para hacer estas importantes distinciones, lo que se denominó la característica operativa del receptor. [56]
En la década de 1950, las curvas ROC se emplearon en psicofísica para evaluar la detección humana (y ocasionalmente de animales no humanos) de señales débiles. [55] En medicina , el análisis ROC se ha utilizado ampliamente en la evaluación de pruebas de diagnóstico . [57] [58] Las curvas ROC también se utilizan ampliamente en epidemiología e investigación médica y se mencionan con frecuencia junto con la medicina basada en la evidencia . En radiología , el análisis ROC es una técnica común para evaluar nuevas técnicas de radiología. [59] En las ciencias sociales, el análisis ROC a menudo se denomina índice de precisión ROC, una técnica común para juzgar la precisión de los modelos de probabilidad predeterminados. Las curvas ROC se utilizan ampliamente en medicina de laboratorio para evaluar la precisión diagnóstica de una prueba, para elegir el punto de corte óptimo de una prueba y para comparar la precisión diagnóstica de varias pruebas.
Las curvas ROC también resultaron útiles para la evaluación de técnicas de aprendizaje automático . La primera aplicación de las curvas ROC en el aprendizaje automático fue realizada por Spackman, quien demostró el valor de las curvas ROC para comparar y evaluar diferentes algoritmos de clasificación . [60]
Las curvas ROC también se utilizan en la verificación de pronósticos en meteorología. [61]
Como se mencionó, las curvas ROC son fundamentales para el funcionamiento y la teoría del radar . Las señales recibidas en una estación receptora, tal como se reflejan en un objetivo, suelen tener una energía muy baja en comparación con el nivel de ruido . La relación señal/ruido es una métrica importante para determinar si se detectará un objetivo. Esta relación señal/ruido está directamente relacionada con las características operativas del receptor de todo el sistema de radar, que se utilizan para cuantificar la capacidad de un sistema de radar.
Consideremos el desarrollo de un sistema de radar. Se puede proporcionar una especificación de las capacidades del sistema en términos de probabilidad de detección, , con una cierta tolerancia para las falsas alarmas, . Se puede calcular una aproximación simplificada de la relación señal/ruido requerida en la estación receptora resolviendo [62]
para la relación señal/ruido . Aquí, no se expresa en decibeles , como es habitual en muchas aplicaciones de radar. La conversión a decibeles se realiza mediante . A partir de esta figura, se pueden resolver las entradas comunes en la ecuación de alcance del radar (con factores de ruido) para estimar la potencia radiada efectiva requerida .
La extensión de las curvas ROC para problemas de clasificación con más de dos clases es engorrosa. Dos enfoques comunes para cuando hay múltiples clases son (1) promediar todos los valores de AUC por pares [63] y (2) calcular el volumen bajo la superficie (VUS). [64] [65] Para promediar todas las clases por pares, se calcula el AUC para cada par de clases, utilizando solo los ejemplos de esas dos clases como si no hubiera otras clases, y luego se promedian estos valores de AUC sobre todos los pares posibles. Cuando hay c clases, habrá c ( c − 1) / 2 pares de clases posibles.
El enfoque del volumen bajo la superficie implica trazar una hipersuperficie en lugar de una curva y luego medir el hipervolumen debajo de esa hipersuperficie. Cada posible regla de decisión que se podría usar para un clasificador para c clases se puede describir en términos de sus tasas positivas verdaderas (TPR 1 , . . . , TPR c ) . Es este conjunto de tasas lo que define un punto, y el conjunto de todas las reglas de decisión posibles produce una nube de puntos que define la hipersuperficie. Con esta definición, la VUS es la probabilidad de que el clasificador pueda etiquetar correctamente todos los c ejemplos cuando se le da un conjunto que tiene un ejemplo seleccionado aleatoriamente de cada clase. La implementación de un clasificador que sabe que su conjunto de entrada consta de un ejemplo de cada clase podría calcular primero una puntuación de bondad de ajuste para cada uno de los c 2 posibles emparejamientos de un ejemplo con una clase, y luego emplear el algoritmo húngaro para maximizar la suma de las c puntuaciones seleccionadas sobre todas las c ! formas posibles de asignar exactamente un ejemplo a cada clase.
Dado el éxito de las curvas ROC para la evaluación de modelos de clasificación, también se ha investigado la extensión de las curvas ROC para otras tareas supervisadas. Las propuestas notables para problemas de regresión son las llamadas curvas características de error de regresión (REC) [66] y las curvas de regresión ROC (RROC). [67] En estas últimas, las curvas RROC se vuelven extremadamente similares a las curvas ROC para clasificación, con las nociones de asimetría, dominancia y envoltura convexa. Además, el área bajo las curvas RROC es proporcional a la varianza del error del modelo de regresión.
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)