Fases del ciclo de vida del análisis de datos

En este artículo, vamos a discutir las fases del ciclo de vida del análisis de datos en el que cubriremos varias fases del ciclo de vida y las discutiremos una por una.

Ciclo de vida de análisis de datos :
el ciclo de vida de análisis de datos está diseñado para problemas de Big Data y proyectos de ciencia de datos. El ciclo es iterativo para representar un proyecto real. Para abordar los distintos requisitos para realizar análisis en Big Data, se necesita una metodología paso a paso para organizar las actividades y tareas relacionadas con la adquisición, el procesamiento, el análisis y la reutilización de datos.

    Fase 1: Descubrimiento –

  • El equipo de ciencia de datos aprende e investiga el problema.
  • Desarrollar el contexto y la comprensión.
  • Infórmese sobre las fuentes de datos necesarias y disponibles para el proyecto.
  • El equipo formula hipótesis iniciales que luego se pueden probar con datos.
    Fase 2: Preparación de datos –

  • Pasos para explorar, preprocesar y condicionar los datos antes del modelado y el análisis.
  • Requiere la presencia de un sandbox analítico, el equipo ejecuta, carga y transforma para obtener datos en el sandbox.
  • Es probable que las tareas de preparación de datos se realicen varias veces y no en un orden predefinido.
  • Varias herramientas comúnmente utilizadas para esta fase son: Hadoop, Alpine Miner, Open Refine, etc.
    Fase 3: Planificación Modelo –

  • El equipo explora los datos para conocer las relaciones entre las variables y, posteriormente, selecciona las variables clave y los modelos más adecuados.
  • En esta fase, el equipo de ciencia de datos desarrolla conjuntos de datos con fines de capacitación, prueba y producción.
  • El equipo construye y ejecuta modelos basados ​​en el trabajo realizado en la fase de planificación del modelo.
  • Varias herramientas comúnmente utilizadas para esta fase son: Matlab, STASTICA.
    Fase 4: Construcción de modelos –

  • El equipo desarrolla conjuntos de datos con fines de prueba, capacitación y producción.
  • El equipo también considera si sus herramientas existentes serán suficientes para ejecutar los modelos o si necesitan un entorno más sólido para ejecutar los modelos.
  • Herramientas gratuitas o de código abierto: Rand PL/R, Octave, WEKA.
  • Herramientas comerciales – Matlab, STASTICA.
    Fase 5: Resultados de la comunicación –

  • Después de ejecutar el modelo, el equipo debe comparar los resultados del modelado con los criterios establecidos para el éxito y el fracaso.
  • El equipo considera la mejor manera de articular los hallazgos y los resultados a varios miembros del equipo y partes interesadas, teniendo en cuenta las advertencias y las suposiciones.
  • El equipo debe identificar los hallazgos clave, cuantificar el valor comercial y desarrollar una narrativa para resumir y transmitir los hallazgos a las partes interesadas.
    Fase 6: Operacionalizar –

  • El equipo comunica los beneficios del proyecto de manera más amplia y establece un proyecto piloto para implementar el trabajo de manera controlada antes de ampliar el trabajo a toda la empresa de los usuarios.
  • Este enfoque permite que el equipo conozca el rendimiento y las limitaciones relacionadas del modelo en el entorno de producción a pequeña escala  , y realice ajustes antes de la implementación completa.
  • El equipo entrega informes finales, resúmenes, códigos.
  • Herramientas gratuitas o de código abierto: Octave, WEKA, SQL, MADlib.

Publicación traducida automáticamente

Artículo escrito por goelaparna1520 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *