ML | Underfitting y Overfitting

Cuando hablamos del modelo de Machine Learning, en realidad hablamos de qué tan bien funciona y su precisión, lo que se conoce como errores de predicción. Consideremos que estamos diseñando un modelo de aprendizaje automático. Se dice que un modelo es un buen modelo de aprendizaje automático si generaliza cualquier dato de entrada nuevo del dominio del problema de manera adecuada. Esto nos ayuda a hacer predicciones sobre los datos futuros, que el modelo de datos nunca ha visto. Ahora, supongamos que queremos verificar qué tan bien nuestro modelo de aprendizaje automático aprende y generaliza los nuevos datos. Para eso, tenemos overfitting y underfitting, que son los principales responsables del bajo rendimiento de los algoritmos de aprendizaje automático.

Antes de sumergirnos más, entendamos dos términos importantes:

  • Sesgo: suposiciones hechas por un modelo para hacer que una función sea más fácil de aprender. En realidad, es la tasa de error de los datos de entrenamiento. Cuando la tasa de error tiene un valor alto, lo llamamos High Bias y cuando la tasa de error tiene un valor bajo, lo llamamos Low Bias.
  • Varianza:  La tasa de error de los datos de prueba se llama varianza. Cuando la tasa de error tiene un valor alto, la llamamos Varianza alta y cuando la tasa de error tiene un valor bajo, la llamamos Varianza baja.

Ajuste insuficiente:  se dice que un modelo estadístico o un algoritmo de aprendizaje automático tiene un ajuste insuficiente cuando no puede capturar la tendencia subyacente de los datos, es decir, solo funciona bien en los datos de entrenamiento pero funciona mal en los datos de prueba. (¡Es como intentar calzar pantalones demasiado pequeños!)El ajuste insuficiente destruye la precisión de nuestro modelo de aprendizaje automático. Su aparición simplemente significa que nuestro modelo o el algoritmo no se ajusta lo suficientemente bien a los datos. Por lo general, sucede cuando tenemos menos datos para construir un modelo preciso y también cuando intentamos construir un modelo lineal con menos datos no lineales. En tales casos, las reglas del modelo de aprendizaje automático son demasiado fáciles y flexibles para aplicarse a datos tan mínimos y, por lo tanto, el modelo probablemente hará muchas predicciones incorrectas. El ajuste insuficiente se puede evitar utilizando más datos y también reduciendo las características mediante la selección de características. 

En pocas palabras, Underfitting se refiere a un modelo que no puede funcionar bien en los datos de entrenamiento ni generalizarse a nuevos datos. 

Razones para la infrautilización:

  1. Alto sesgo y baja varianza 
  2. El tamaño del conjunto de datos de entrenamiento utilizado no es suficiente.
  3. El modelo es demasiado simple.
  4. Los datos de entrenamiento no se limpian y también contienen ruido.

Técnicas para reducir el underfitting: 

  1. Aumentar la complejidad del modelo
  2. Aumentar el número de características, realizando ingeniería de características
  3. Elimina el ruido de los datos.
  4. Aumente el número de épocas o aumente la duración del entrenamiento para obtener mejores resultados.

Sobreajuste:  se dice que un modelo estadístico está sobreajustado cuando el modelo no hace predicciones precisas sobre los datos de prueba. Cuando un modelo se entrena con tantos datos, comienza a aprender del ruido y de las entradas de datos inexactas en nuestro conjunto de datos. Y cuando la prueba con datos de prueba da como resultado una varianza alta. Entonces el modelo no categoriza los datos correctamente, debido a demasiados detalles y ruido. Las causas del sobreajuste son los métodos no paramétricos y no lineales porque estos tipos de algoritmos de aprendizaje automático tienen más libertad para construir el modelo basado en el conjunto de datos y, por lo tanto, realmente pueden construir modelos poco realistas. Una solución para evitar el sobreajuste es usar un algoritmo lineal si tenemos datos lineales o usar parámetros como la profundidad máxima si estamos usando árboles de decisión. 

En pocas palabras, el sobreajuste es un problema en el que la evaluación de los algoritmos de aprendizaje automático en los datos de entrenamiento es diferente de los datos no vistos.

Las razones para el sobreajuste son las siguientes:

  1.  Varianza alta y sesgo bajo 
  2. El modelo es demasiado complejo.
  3. El tamaño de los datos de entrenamiento. 

Ejemplos:

Técnicas para reducir el sobreajuste:

  1. Aumentar los datos de entrenamiento.
  2. Reducir la complejidad del modelo.
  3. Parada temprana durante la fase de entrenamiento (vigile la pérdida durante el período de entrenamiento tan pronto como la pérdida comience a aumentar, detenga el entrenamiento).
  4. Regularización de Ridge y Regularización de Lazo
  5. Use el abandono para redes neuronales para abordar el sobreajuste.

Buen ajuste en un modelo estadístico:  idealmente, en el caso en que el modelo hace las predicciones con 0 errores, se dice que tiene un buen ajuste en los datos. Esta situación se puede lograr en un punto entre el ajuste excesivo y el ajuste insuficiente. Para entenderlo tendremos que fijarnos en el rendimiento de nuestro modelo con el paso del tiempo, mientras va aprendiendo del dataset de entrenamiento.

Con el paso del tiempo, nuestro modelo seguirá aprendiendo y, por lo tanto, el error del modelo en los datos de entrenamiento y prueba seguirá disminuyendo. Si aprende durante demasiado tiempo, el modelo será más propenso a sobreajustarse debido a la presencia de ruido y detalles menos útiles. Por lo tanto, el rendimiento de nuestro modelo disminuirá. Para obtener un buen ajuste, nos detendremos en un punto justo antes de que el error comience a aumentar. En este punto, se dice que el modelo tiene buenas habilidades para entrenar conjuntos de datos, así como nuestro conjunto de datos de prueba invisible. 

Publicación traducida automáticamente

Artículo escrito por dewangNautiyal y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *