Modelo SEMMA

SEMMA son los métodos secuenciales para construir modelos de aprendizaje automático incorporados en ‘SAS Enterprise Miner’, un producto de SAS Institute Inc., uno de los mayores productores de software de inteligencia comercial y estadística comercial. Sin embargo, los pasos secuenciales guían el desarrollo de un sistema de aprendizaje automático. Veamos los cinco pasos secuenciales para entenderlo mejor.

Modelo SEMMA en Machine Learning

Muestra: este paso se trata de seleccionar el subconjunto del conjunto de datos de volumen correcto de un gran conjunto de datos proporcionado para construir el modelo. Nos ayudará a construir el modelo de manera muy eficiente. Básicamente, en este paso, identificamos las variables independientes (resultado) y las variables dependientes (factores). El subconjunto de datos seleccionado debe ser en realidad una representación de todo el conjunto de datos recopilado originalmente, lo que significa que debe contener suficiente información para recuperar. Los datos también se dividen en propósito de entrenamiento y validación.

Explorar: en esta fase, se llevan a cabo actividades para comprender los vacíos de datos y la relación entre ellos. Dos actividades clave son el análisis univariado y multivariado. En el análisis univariado, cada variable busca individualmente para comprender su distribución, mientras que en el análisis multivariado se explora la relación entre cada variable. La visualización de datos se usa mucho para ayudar a comprender mejor los datos. En este paso, hacemos un análisis con todos los factores que influyen en nuestro resultado.

Modificar: en esta fase, las variables se limpian donde sea necesario. Las nuevas funciones derivadas se crean aplicando la lógica empresarial a las funciones existentes en función del requisito. Las variables se transforman si es necesario. El resultado de esta fase es un conjunto de datos limpio que se puede pasar al algoritmo de aprendizaje automático para construir el modelo. En este paso, verificamos si los datos se transforman por completo o no. Si necesitamos la transformación de datos, usamos el codificador de etiquetas o el binarizador de etiquetas.

Modelo: en esta fase, se aplican varias técnicas de modelado o minería de datos a los datos preprocesados ​​para comparar su rendimiento con los resultados deseados. En este paso, realizamos todas las operaciones matemáticas que hacen que nuestro resultado también sea más preciso y exacto.

Evaluar: Esta es la última fase. Aquí, el rendimiento del modelo se evalúa con los datos de prueba (no utilizados en el entrenamiento del modelo) para garantizar la confiabilidad y la utilidad empresarial. Finalmente, en este paso, realizamos la evaluación e interpretación de los datos. Comparamos el resultado de nuestro modelo con el resultado real y el análisis de la limitación de nuestro modelo y también tratamos de superar esa limitación.

Publicación traducida automáticamente

Artículo escrito por Vishesh__Jha y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *