Prerrequisitos: Descenso de gradiente
El sobreajuste es un fenómeno que ocurre cuando un modelo de Machine Learning está restringido al conjunto de entrenamiento y no puede funcionar bien en datos no vistos.
La regularización es una técnica utilizada para reducir los errores ajustando la función adecuadamente en el conjunto de entrenamiento dado y evitando el sobreajuste.
Las técnicas de regularización comúnmente utilizadas son:
- regularización L1
- regularización L2
- Regularización de la deserción
Este artículo se centra en la regularización de L1 y L2.
Un modelo de regresión que utiliza la técnica de regularización L1 se denomina regresión LASSO (operador de selección y contracción mínima absoluta) .
Un modelo de regresión que utiliza la técnica de regularización L2 se denomina regresión Ridge .
Lasso Regression agrega el «valor absoluto de la magnitud» del coeficiente como término de penalización a la función de pérdida (L).
La regresión de Ridge agrega la » magnitud al cuadrado » del coeficiente como término de penalización a la función de pérdida (L).
TENGA EN CUENTA que durante la Regularización la función de salida (y_hat) no cambia. El cambio está solo en la función de pérdida.
La función de salida:
La función de pérdida antes de la regularización:
La función de pérdida después de la regularización:
Definimos la función de pérdida en regresión logística como:
L(y_hat,y) = y log y_hat + (1 - y)log(1 - y_hat)
Función de pérdida sin regularización:
L = y log (wx + b) + (1 - y)log(1 - (wx + b))
Digamos que los datos superan la función anterior.
Función de pérdida con regularización L1:
L = y log (wx + b) + (1 - y)log(1 - (wx + b)) + lambda*||w||1
Función de pérdida con regularización L2:
L = y log (wx + b) + (1 - y)log(1 - (wx + b)) + lambda*||w||22
lambda es un hiperparámetro conocido como constante de regularización y es mayor que cero.
lambda > 0
Publicación traducida automáticamente
Artículo escrito por AlindGupta y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA