En este artículo, vamos a discutir las fases del ciclo de vida del análisis de datos en el que cubriremos varias fases del ciclo de vida y las discutiremos una por una.
Ciclo de vida de análisis de datos :
el ciclo de vida de análisis de datos está diseñado para problemas de Big Data y proyectos de ciencia de datos. El ciclo es iterativo para representar un proyecto real. Para abordar los distintos requisitos para realizar análisis en Big Data, se necesita una metodología paso a paso para organizar las actividades y tareas relacionadas con la adquisición, el procesamiento, el análisis y la reutilización de datos.
- Fase 1: Descubrimiento –
- El equipo de ciencia de datos aprende e investiga el problema.
- Desarrollar el contexto y la comprensión.
- Infórmese sobre las fuentes de datos necesarias y disponibles para el proyecto.
- El equipo formula hipótesis iniciales que luego se pueden probar con datos.
- Fase 2: Preparación de datos –
- Pasos para explorar, preprocesar y condicionar los datos antes del modelado y el análisis.
- Requiere la presencia de un sandbox analítico, el equipo ejecuta, carga y transforma para obtener datos en el sandbox.
- Es probable que las tareas de preparación de datos se realicen varias veces y no en un orden predefinido.
- Varias herramientas comúnmente utilizadas para esta fase son: Hadoop, Alpine Miner, Open Refine, etc.
- Fase 3: Planificación Modelo –
- El equipo explora los datos para conocer las relaciones entre las variables y, posteriormente, selecciona las variables clave y los modelos más adecuados.
- En esta fase, el equipo de ciencia de datos desarrolla conjuntos de datos con fines de capacitación, prueba y producción.
- El equipo construye y ejecuta modelos basados en el trabajo realizado en la fase de planificación del modelo.
- Varias herramientas comúnmente utilizadas para esta fase son: Matlab, STASTICA.
- Fase 4: Construcción de modelos –
- El equipo desarrolla conjuntos de datos con fines de prueba, capacitación y producción.
- El equipo también considera si sus herramientas existentes serán suficientes para ejecutar los modelos o si necesitan un entorno más sólido para ejecutar los modelos.
- Herramientas gratuitas o de código abierto: Rand PL/R, Octave, WEKA.
- Herramientas comerciales – Matlab, STASTICA.
- Fase 5: Resultados de la comunicación –
- Después de ejecutar el modelo, el equipo debe comparar los resultados del modelado con los criterios establecidos para el éxito y el fracaso.
- El equipo considera la mejor manera de articular los hallazgos y los resultados a varios miembros del equipo y partes interesadas, teniendo en cuenta las advertencias y las suposiciones.
- El equipo debe identificar los hallazgos clave, cuantificar el valor comercial y desarrollar una narrativa para resumir y transmitir los hallazgos a las partes interesadas.
- Fase 6: Operacionalizar –
- El equipo comunica los beneficios del proyecto de manera más amplia y establece un proyecto piloto para implementar el trabajo de manera controlada antes de ampliar el trabajo a toda la empresa de los usuarios.
- Este enfoque permite que el equipo conozca el rendimiento y las limitaciones relacionadas del modelo en el entorno de producción a pequeña escala , y realice ajustes antes de la implementación completa.
- El equipo entrega informes finales, resúmenes, códigos.
- Herramientas gratuitas o de código abierto: Octave, WEKA, SQL, MADlib.
Publicación traducida automáticamente
Artículo escrito por goelaparna1520 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA