Construcción de modelos para análisis de datos

Requisito previo: fases del ciclo de vida del análisis de datos

Construcción de modelos:
en esta fase, el equipo de ciencia de datos necesita desarrollar conjuntos de datos con fines de capacitación, prueba y producción. Estos conjuntos de datos permiten a los científicos de datos desarrollar métodos analíticos y entrenarlos, mientras reservan algunos datos para probar el modelo.

El equipo desarrolla conjuntos de datos con fines de prueba, capacitación y producción. Además, en esta fase, el equipo crea y ejecuta modelos basados ​​en el trabajo realizado en la fase de planificación del modelo. El equipo también considera si sus herramientas existentes serán suficientes para ejecutar los modelos o si necesitará un entorno más sólido para ejecutar modelos y flujos de trabajo (Ejemplo: hardware rápido y procesamiento paralelo).

Herramientas gratuitas o de código abierto:

Rand PL/R, Octave, WEKA, Python 

Herramientas Comerciales –

Matlab, STASTICA 

Herramientas comunes para la fase de construcción del modelo:

R y PL/R:
se describieron anteriormente en la fase de planificación del modelo, y PL/R es un lenguaje de procedimiento para PostgreSQL con R. El uso de este enfoque significa que los comandos R se pueden ejecutar en la base de datos.

Octave :
es un lenguaje de programación de software libre para el modelado computacional, tiene algunas de las funcionalidades de Matlab. Debido a que está disponible gratuitamente, Octave se usa en las principales universidades para enseñar aprendizaje automático.

WEKA:
es un paquete de software gratuito de minería de datos con un banco de trabajo analítico. Las funciones creadas en WAKA se pueden ejecutar dentro del código java.

Python :
es un lenguaje de programación que proporciona juegos de herramientas para el aprendizaje y el análisis automáticos, como scikit-learn, NumPy , scipy , Pandas y visualización de datos relacionados mediante matplotlib.

SQL :
SQL en las implementaciones de bases de datos, como MADlib, proporciona una alternativa a las herramientas analíticas de escritorio de memoria.

MADlib:
proporciona una biblioteca de algoritmos de aprendizaje automático de código abierto que se puede ejecutar en la base de datos, para PostgreSQL o Greenplum.

Ciclo de vida de la construcción de modelos:

  • Seleccionar variables
  • Saldo de datos
  • Construir modelos
  • Validar
  • Desplegar
  • Mantener
  • Definir el éxito
  • Explorar datos
  • Datos de condición

La exploración de datos se utiliza para descubrir la esencia de los datos y desarrollar una evaluación de primer paso de su calidad, cantidad y características. También se pueden aplicar técnicas de visualización. Sin embargo, esta puede ser una tarea difícil en espacios de gran dimensión con muchas variables de entrada. En el condicionamiento de los datos, agrupamos los datos funcionales que se aplican a las técnicas de modelado después de que se realiza el cambio de escala; en algunos casos, el cambio de escala es un problema si las variables están acopladas. La sección variable es muy importante para desarrollar un modelo de calidad.

Este proceso depende implícitamente del modelo, ya que se usa para configurar qué combinación de variables se debe usar en el desarrollo continuo del modelo. El equilibrio de datos consiste en particionar los datos en subconjuntos apropiados para entrenamiento, prueba y validación. La construcción de modelos es centrarse en los algoritmos deseados. La técnica más famosa es la regresión simbólica, también se pueden preferir otras técnicas.

La validación del modelo es importante para desarrollar un sentimiento de confianza antes de su uso. La definición de buen modelo incluye robustez y precisión bien definida. Por lo tanto, el modelo preciso confiable también es potencialmente peligroso desde el punto de vista financiero y físico, pero la métrica confiable es muy importante para la regresión simbólica y las redes analíticas apiladas.

Publicación traducida automáticamente

Artículo escrito por goelaparna1520 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *