¡La evaluación siempre es buena en cualquier campo, verdad! En el caso del aprendizaje automático, es mejor la práctica. En esta publicación, cubriré casi todas las métricas populares y comunes utilizadas para el aprendizaje automático.
- Array de confusión
- Precisión de clasificación.
- Pérdida logarítmica.
- Área bajo la curva.
- Puntuación F1.
- Error absoluto medio.
- Error medio cuadrado.
Array de confusión:
Crea una array NXN , donde N es el número de clases o categorías que se van a predecir. Aquí tenemos N = 2 , por lo que obtenemos una array de 2 X 2 . Supongamos que hay un problema para nuestra práctica que es una clasificación binaria. Las muestras de esa clasificación pertenecen a Yes o No. Entonces, construimos nuestro clasificador que predecirá la clase para la nueva muestra de entrada. Después de eso, hemos probado nuestro modelo con 165 muestras y obtenemos el siguiente resultado.
Hay 4 términos que debes tener en cuenta:
- Verdaderos positivos: es el caso en el que predijimos Sí y la salida real también fue sí.
- Negativos verdaderos: es el caso en el que predijimos No y la salida real también fue No.
- Falsos Positivos: Es el caso en el que predijimos Sí pero en realidad fue No.
- Falsos Negativos: Es el caso en el que predijimos No pero en realidad fue Sí.
La precisión de la array siempre se calcula tomando los valores promedio presentes en la diagonal principal, es decir
Precisión de clasificación:
La precisión de clasificación es la precisión a la que generalmente nos referimos, siempre que usamos el término precisión. Calculamos esto calculando la proporción de predicciones correctas por un número total de Muestras de entrada.
Funciona muy bien si hay un número igual de muestras para cada clase. Por ejemplo, tenemos una muestra del 90 % de la clase A y una muestra del 10 % de la clase B en nuestro conjunto de entrenamiento. Luego, nuestro modelo predecirá con una precisión del 90% al predecir que todas las muestras de entrenamiento pertenecen a la clase A. Si probamos el mismo modelo con un conjunto de prueba del 60 % de la clase A y el 40 % de la clase B, entonces la precisión disminuirá y obtendremos una precisión del 60 %.
La precisión de la clasificación es buena, pero da la sensación de falso positivo de lograr una alta precisión. El problema surge debido a que la posibilidad de clasificación errónea de muestras de clases menores es muy alta.
Pérdida logarítmica.
También se conoce como pérdida de registro. Su propaganda de trabajo básica es penalizar la clasificación falsa (Falso Positivo). Por lo general, funciona bien con la clasificación multiclase. Al trabajar con Log loss, el clasificador debe asignar una probabilidad para todas y cada una de las clases de todas las muestras. Si hay N muestras que pertenecen a la clase M , entonces calculamos la pérdida de registro de esta manera:
Ahora los Términos,
- y_ij indica si la muestra i pertenece a la clase j.
- p_ij – la probabilidad de que la muestra i pertenezca a la clase j.
- El rango de pérdida de registro es [0,?). Cuando la pérdida de registro está cerca de 0, indica una alta precisión y cuando está lejos de cero, indica una precisión más baja.
- Déjame darte un punto extra, minimizar la pérdida de registros te da una mayor precisión para el clasificador.
Área bajo la curva (AUC):
Es una de las métricas más utilizadas y utilizada básicamente para la clasificación binaria. El AUC de un clasificador se define como la probabilidad de que un clasificador clasifique un ejemplo positivo elegido al azar más alto que un ejemplo negativo. Antes de entrar más en AUC, permítame que se sienta cómodo con algunos términos básicos.
Tasa de verdaderos positivos: también llamada o denominada sensibilidad. La tasa de verdaderos positivos se considera como una parte de los puntos de datos positivos que se consideran correctamente como positivos, con respecto a todos los puntos de datos que son positivos.
Tasa de verdadero negativo: también llamada o denominada especificidad. La tasa de falsos negativos se considera como una parte de los puntos de datos negativos que se consideran correctamente como negativos, con respecto a todos los puntos de datos que son negativos.
Tasa de falsos positivos: la tasa de falsos negativos se considera una parte de los puntos de datos negativos que se consideran erróneamente como negativos, con respecto a todos los puntos de datos que son negativos.
La tasa de falsos positivos y la tasa de verdaderos positivos tienen valores en el rango [0, 1]. Ahora la cosa es ¿qué es AUC entonces? Por lo tanto, AUC es una curva trazada entre la tasa de falsos positivos y la tasa de verdaderos positivos en todos los puntos de datos diferentes con un rango de [0, 1]. Cuanto mayor sea el valor de AUCC mejor será el rendimiento del modelo.
Puntuación F1:
Es un medio armónico entre el recuerdo y la precisión. Su rango es [0,1]. Esta métrica generalmente nos dice qué tan preciso (clasifica correctamente cuántas instancias) y robusto (no pierde ninguna cantidad significativa de instancias) es nuestro clasificador.
Se utiliza para medir la precisión de la prueba.
Precisión:
Recuerdo:
Una menor recuperación y una mayor precisión le brindan una gran precisión, pero luego pierde una gran cantidad de instancias. Cuanto mayor sea la puntuación de F1, mejor será el rendimiento. Se puede expresar matemáticamente de esta manera:
Error absoluto medio:
Es la distancia promedio entre los valores previstos y originales. Básicamente, muestra cómo hemos predicho a partir de la salida real. Sin embargo, hay una limitación, es decir, no da ninguna idea sobre la dirección del error, que es si estamos prediciendo por debajo o por encima de nuestros datos. Se puede representar matemáticamente de esta manera:
Error medio cuadrado:
Es similar al error absoluto medio, pero la diferencia es que toma el cuadrado del promedio entre los valores predichos y originales. La principal ventaja de tomar esta métrica está aquí, es más fácil calcular el gradiente mientras que en el caso del error absoluto medio se necesitan herramientas de programación complicadas para calcular el gradiente. Al tomar el cuadrado de los errores, se pronuncian más los errores más grandes que los errores más pequeños, podemos centrarnos más en los errores más grandes. Se puede expresar matemáticamente de esta manera: