Mientras construimos un modelo de aprendizaje automático para un conjunto de datos de la vida real, nos encontramos con muchas características en el conjunto de datos y no todas estas características son importantes siempre. Agregar funciones innecesarias mientras se entrena el modelo nos lleva a reducir la precisión general del modelo, aumentar la complejidad del modelo y disminuir la capacidad de generalización del modelo y hace que el modelo esté sesgado. Incluso el dicho «A veces menos es mejor» también se aplica al modelo de aprendizaje automático. Por lo tanto, la selección de características es uno de los pasos importantes al construir un modelo de aprendizaje automático. Su objetivo es encontrar el mejor conjunto posible de características para construir un modelo de aprendizaje automático.
Algunas técnicas populares de selección de funciones en el aprendizaje automático son:
- Métodos de filtrado
- Métodos de envoltura
- Métodos integrados
Métodos de filtrado
Estos métodos generalmente se usan mientras se realiza el paso de preprocesamiento. Estos métodos seleccionan características del conjunto de datos independientemente del uso de cualquier algoritmo de aprendizaje automático. En términos de computación, son muy rápidos y económicos y son muy buenos para eliminar características duplicadas, correlacionadas y redundantes, pero estos métodos no eliminan la multicolinealidad. La selección de funciones se evalúa individualmente, lo que a veces puede ayudar cuando las funciones están aisladas (no dependen de otras funciones), pero se retrasará cuando una combinación de funciones pueda conducir a un aumento en el rendimiento general del modelo.
Algunas técnicas utilizadas son:
- Ganancia de información: se define como la cantidad de información proporcionada por la función para identificar el valor objetivo y mide la reducción en los valores de entropía. La ganancia de información de cada atributo se calcula considerando los valores objetivo para la selección de características.
- Prueba de chi-cuadrado: el método de chi-cuadrado (X2) se usa generalmente para probar la relación entre variables categóricas. Compara los valores observados de diferentes atributos del conjunto de datos con su valor esperado.
- Puntuación de Fisher: la puntuación de Fisher selecciona cada característica de forma independiente según sus puntuaciones según el criterio de Fisher, lo que conduce a un conjunto de características subóptimas. Cuanto mayor sea la puntuación de Fisher, mejor será la característica seleccionada.
- Coeficiente de correlación: el coeficiente de correlación de Pearson es una medida para cuantificar la asociación entre las dos variables continuas y la dirección de la relación con valores que van desde -1 a 1 .
- Umbral de varianza: es un enfoque en el que se eliminan todas las características cuya varianza no alcanza el umbral específico. De forma predeterminada, este método elimina las entidades que tienen varianza cero. La suposición hecha con este método es que es probable que las características de mayor varianza contengan más información.
- Diferencia media absoluta (MAD): este método es similar al método de umbral de varianza, pero la diferencia es que no hay un cuadrado en MAD. Este método calcula la diferencia absoluta media a partir del valor medio.
- Relación de dispersión: la relación de dispersión se define como la relación entre la media aritmética (AM) y la media geométrica (GM) para una característica determinada. Su valor oscila entre +1 y ∞ cuando AM ≥ GM para una determinada característica. Una relación de dispersión más alta implica una característica más relevante.
- Dependencia mutua: este método mide si dos variables son mutuamente dependientes y, por lo tanto, proporciona la cantidad de información obtenida para una variable al observar la otra variable. Según la presencia/ausencia de una característica, mide la cantidad de información que esa característica contribuye a realizar la predicción del objetivo.
- Relieve: este método mide la calidad de los atributos mediante el muestreo aleatorio de una instancia del conjunto de datos y la actualización de cada característica y la distinción entre instancias que están cerca unas de otras en función de la diferencia entre la instancia seleccionada y las dos instancias más cercanas de clases iguales y opuestas.
Métodos de envoltura:
Los métodos de envoltorio, también conocidos como algoritmos codiciosos, entrenan el algoritmo mediante el uso de un subconjunto de características de manera iterativa. Sobre la base de las conclusiones extraídas del entrenamiento previo al modelo, se lleva a cabo la adición y eliminación de características. Los criterios de parada para seleccionar el mejor subconjunto suelen estar predefinidos por la persona que entrena el modelo, como cuando el rendimiento del modelo disminuye o se ha logrado un número específico de características. La principal ventaja de los métodos de envoltura sobre los métodos de filtro es que proporcionan un conjunto óptimo de características para entrenar el modelo, lo que da como resultado una mayor precisión que los métodos de filtro, pero son computacionalmente más costosos.
Algunas técnicas utilizadas son:
- Selección directa: este método es un enfoque iterativo en el que inicialmente comenzamos con un conjunto vacío de funciones y seguimos agregando una función que mejore nuestro modelo después de cada iteración. El criterio de parada es hasta que la adición de una nueva variable no mejora el rendimiento del modelo.
- Eliminación hacia atrás: este método también es un enfoque iterativo en el que inicialmente comenzamos con todas las funciones y, después de cada iteración, eliminamos la función menos significativa. El criterio de parada es hasta que no se observa ninguna mejora en el rendimiento del modelo después de eliminar la función.
- Eliminación bidireccional: este método utiliza la técnica de selección hacia adelante y eliminación hacia atrás simultáneamente para llegar a una solución única.
- Selección exhaustiva: esta técnica se considera el enfoque de fuerza bruta para la evaluación de subconjuntos de características. Crea todos los subconjuntos posibles y construye un algoritmo de aprendizaje para cada subconjunto y selecciona el subconjunto cuyo modelo tiene el mejor rendimiento.
- Eliminación recursiva: este método de optimización codicioso selecciona funciones al considerar recursivamente el conjunto de funciones cada vez más pequeño. El estimador se entrena en un conjunto inicial de características y su importancia se obtiene utilizando feature_importance_attribute. Luego, las funciones menos importantes se eliminan del conjunto actual de funciones hasta que nos quede la cantidad requerida de funciones.
Métodos integrados:
En los métodos integrados, el algoritmo de selección de funciones se combina como parte del algoritmo de aprendizaje, por lo que tiene sus propios métodos de selección de funciones incorporados. Los métodos integrados se encuentran con los inconvenientes de los métodos de filtro y envoltura y combinan sus ventajas. Estos métodos son más rápidos que los métodos de filtro y más precisos que los métodos de filtro y también tienen en cuenta una combinación de características.
Algunas técnicas utilizadas son:
- Regularización: este método agrega una penalización a diferentes parámetros del modelo de aprendizaje automático para evitar el ajuste excesivo del modelo. Este enfoque de selección de características utiliza Lasso (regularización L1) y redes elásticas (regularización L1 y L2). La penalización se aplica sobre los coeficientes, reduciendo así algunos coeficientes a cero. Las características que tienen un coeficiente cero se pueden eliminar del conjunto de datos.
- Métodos basados en árboles: estos métodos, como Random Forest, Gradient Boosting, nos brindan la importancia de las características como una forma de seleccionar características también. La importancia de la característica nos dice qué características son más importantes para tener un impacto en la característica de destino.
Conclusión:
Además de los métodos discutidos anteriormente, existen muchos otros métodos de selección de funciones. El uso de métodos híbridos para la selección de características puede ofrecer una selección de las mejores ventajas de otros métodos, lo que lleva a reducir las desventajas de los algoritmos. Estos modelos pueden proporcionar una mayor precisión y rendimiento en comparación con otros métodos. Las técnicas de reducción de dimensionalidad como el análisis de componentes principales (PCA), los algoritmos de búsqueda heurística, etc. no funcionan como las técnicas de selección de características, pero pueden ayudarnos a reducir el número de características.
La selección de características es un campo amplio y complicado y ya se han realizado muchos estudios para descubrir los mejores métodos. Depende del ingeniero de aprendizaje automático combinar e innovar enfoques, probarlos y luego ver qué funciona mejor para el problema dado.
Publicación traducida automáticamente
Artículo escrito por rahulbajaj1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA