Estructura del proyecto de ciencia de datos

En este artículo, se mencionan las 5 fases de un proyecto de ciencia de datos:

  1. Fase de interrogatorio:
    • Esta es la fase más importante en un proyecto de ciencia de datos.
    • La fase de preguntas le ayuda a comprender sus datos y decidir el tipo de análisis.
    • Los resultados de algunas consultas SQL filtrarían sus datos y responderían sus preguntas
    • Para extraer datos de conjuntos de datos más grandes, se puede usar almacenamiento distribuido como Apache Hadoop, Spark o Flink.
    • Hay 6 tipos de preguntas:
      1. Pregunta descriptiva: se propone una pregunta descriptiva cuando necesita analizar las características de sus datos.
      2. Pregunta exploratoria: se propone una pregunta exploratoria para encontrar los patrones, tendencias o relaciones existentes entre sus datos
      3. Pregunta inferencial: una pregunta inferencial no se puede responder directamente, puede tener múltiples respuestas. Puede llegar a su respuesta mirando otro conjunto de datos.
      4. Pregunta causal: se hace una pregunta causal para asegurarse de que cambiar un atributo no afecte a los otros atributos.
      5. Pregunta de predicción: se propone una pregunta predictiva cuando está más dedicado a predecir el resultado.
      6. Pregunta mecanicista: una pregunta que pregunta cómo la acción produciría el resultado deseado .
  2. Análisis exploratorio de datos:
    • EDA tiene dos objetivos principales:
      1. Comprueba si los datos que tienes son adecuados para responder a tus dudas
      2. Comience a desarrollar un bosquejo de la solución. Esto se puede hacer sin ningún modelo formal o prueba estadística.
    • La formulación de una pregunta se realiza para iniciar el proceso de análisis de datos exploratorios y para limitar las posibilidades de distraerse de su conjunto de datos.
    • Ahora, los datos deben ser leídos cuidadosamente. La mayoría de los datos serían desordenados y contendrían datos irrelevantes o inapropiados. Para eliminar datos no deseados, se debe realizar una limpieza de datos. A veces, los datos ya limpios también están disponibles
    • Compruebe si su conjunto de datos contiene todos los datos necesarios
    • Asegurarse de que es importante que los datos coincidan con algo fuera del conjunto de datos. Es simple hacer una validación externa, solo verifique sus datos con un solo número.
    • Graficar y visualizar datos es una buena manera de entender sus datos. El trazado puede ocurrir en diferentes etapas del análisis de datos. También te ayuda a no desviarte de tus expectativas.
    • Se pueden hacer las siguientes preguntas para verificar si está pasando por su análisis
      1. ¿Tienes los datos correctos?
      2. ¿Necesitas otros datos?
      3. ¿Tienes la pregunta correcta?
  3. Modelado formal
    • Si su boceto funciona, significa que tiene los datos correctos
    • Anote los parámetros que está tratando de estimar
    • Si llega a esta etapa, no significa que sus datos sean correctos todo el tiempo
    • Ponga a prueba sus resultados a través de una variedad de enfoques como el análisis de sensibilidad
    • También asegúrese de que sus datos y el algoritmo utilizado sean reproducibles porque podrían surgir situaciones en las que este proyecto sería la base para otro nuevo análisis.
  4. Interpretación
    • En este punto, probablemente haya realizado muchos análisis diferentes
    • Esta fase es para reunir toda la información que tienes después del análisis.
    • Ayuda a filtrar los resultados que tienes.
    • Sería útil si envía su código a otro clúster o sistema distribuido autoconstruido para ajustarlo.
    • El poder predictivo de un modelo radica en su capacidad de generalización.
  5. Fase de comunicación
    • Una vez que el proyecto de ciencia de datos tiene éxito, los hallazgos deben comunicarse a algún tipo de audiencia
    • Esta es una fase esencial porque informa el proceso de análisis de datos y traduce sus hallazgos en acciones.
    • Asegúrese de que los resultados de su proyecto se visualicen para una comprensión rápida
    • En esta fase no se tienen en cuenta las habilidades técnicas. La habilidad esencial requerida es poder contar una historia clara y procesable.

Otra fase informal es la fase de toma de decisiones.

Publicación traducida automáticamente

Artículo escrito por hazel15300 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *