Requisito previo: target=”_blank”>Primeros pasos con la clasificación
En este artículo, discutiremos un método para calcular la eficiencia de un clasificador binario . Supongamos que hay un problema en el que tenemos que clasificar un producto que pertenece a la clase A o a la clase B.
Definamos algunos parámetros estadísticos:
TP (True Positive) = número de productos de Clase A, que se clasifican como productos de Clase A.
FN (Falso Negativo) = número de productos de Clase A, que se clasifican como productos de Clase B.
TN (True Negative) = número de productos de Clase B, que se clasifican como productos de Clase B.
FP (Falso Positivo) = número de productos de Clase B, que se clasifican como productos de Clase A.
FP = N-TP; // where number N is the number of class A type products FN = M-TN; // where number M is the number of class B type products
Veremos este ejemplo, para entender bien estos parámetros.
Si (+) denota candidatos aptos para el trabajo y (-) denota candidatos no aptos para el trabajo.
Para calcular la Eficiencia del clasificador, necesitamos calcular los valores de Sensibilidad, Especificidad y Precisión .
La sensibilidad mide la proporción de positivos que se identifican correctamente como tales.
También conocida como tasa de verdaderos positivos (TPR).La especificidad mide la proporción de negativos que se identifican correctamente como tales.
También conocida como tasa negativa verdadera (TNR).La precisión mide qué tan bien la prueba predice tanto TPR como TNR.
Sensitivity = ( TP / (TP+FN) ) * 100; Specificity = ( TN/(TN+FP) ) * 100; Accuracy = ( (TP+TN) / (TP+TN+FP+FN) ) * 100; Efficiency = ( Sensitivity + Specificity + Accuracy ) / 3;
Tomemos el ejemplo anterior y calculemos la eficiencia de la selección:
Digamos que los candidatos aptos pertenecen a la clase A y los candidatos no aptos pertenecen a la clase B.
Before Interview : N = 4 and M = 4 After Interview : TP = 2 TN = 2 FP = N - TP = 2 FN = M - TN = 2 Sensitivity = 2/(2+2)*100 = 50 Specificity = 2/(2+2)*100 = 50 Accuracy = (2+2)/(2+2+2+2)*100 = 50 Efficiency = (50+50+50)/3 = 50 So,Efficiency of selection of candidates is 50% accurate.
Otras medidas de rendimiento:
- Tasa de error = (FP + FN) / (TP + TN + FP + FN)
- Precisión = TP / (TP + FP)
- Recuperar = TP / (TP + FN)
- BCR (tasa de clasificación equilibrada) = 1/2* (TP / (TP + FN) + TN / (TN + FP))
- AUC = Área bajo la curva ROC
Curva característica de funcionamiento del receptor:
- Curva característica operativa del receptor (ROC): Curva 2-D parametrizada por un parámetro del algoritmo de clasificación.
- AUC siempre está entre 0 y 1.
- La curva ROC se puede obtener trazando TPR en el eje y y TNR en el eje x.
- AUC da precisión al modelo propuesto.
Referencias:
- https://en.wikipedia.org/wiki/Evaluación_de_clasificadores_binarios
- http://www.lifenscience.com/bioinformatics/sensitivity-specificity-accuracy-and
Publicación traducida automáticamente
Artículo escrito por Abhishek rajput y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA