En este artículo, se mencionan las 5 fases de un proyecto de ciencia de datos:
- Fase de interrogatorio:
- Esta es la fase más importante en un proyecto de ciencia de datos.
- La fase de preguntas le ayuda a comprender sus datos y decidir el tipo de análisis.
- Los resultados de algunas consultas SQL filtrarían sus datos y responderían sus preguntas
- Para extraer datos de conjuntos de datos más grandes, se puede usar almacenamiento distribuido como Apache Hadoop, Spark o Flink.
- Hay 6 tipos de preguntas:
- Pregunta descriptiva: se propone una pregunta descriptiva cuando necesita analizar las características de sus datos.
- Pregunta exploratoria: se propone una pregunta exploratoria para encontrar los patrones, tendencias o relaciones existentes entre sus datos
- Pregunta inferencial: una pregunta inferencial no se puede responder directamente, puede tener múltiples respuestas. Puede llegar a su respuesta mirando otro conjunto de datos.
- Pregunta causal: se hace una pregunta causal para asegurarse de que cambiar un atributo no afecte a los otros atributos.
- Pregunta de predicción: se propone una pregunta predictiva cuando está más dedicado a predecir el resultado.
- Pregunta mecanicista: una pregunta que pregunta cómo la acción produciría el resultado deseado .
- Análisis exploratorio de datos:
- EDA tiene dos objetivos principales:
- Comprueba si los datos que tienes son adecuados para responder a tus dudas
- Comience a desarrollar un bosquejo de la solución. Esto se puede hacer sin ningún modelo formal o prueba estadística.
- La formulación de una pregunta se realiza para iniciar el proceso de análisis de datos exploratorios y para limitar las posibilidades de distraerse de su conjunto de datos.
- Ahora, los datos deben ser leídos cuidadosamente. La mayoría de los datos serían desordenados y contendrían datos irrelevantes o inapropiados. Para eliminar datos no deseados, se debe realizar una limpieza de datos. A veces, los datos ya limpios también están disponibles
- Compruebe si su conjunto de datos contiene todos los datos necesarios
- Asegurarse de que es importante que los datos coincidan con algo fuera del conjunto de datos. Es simple hacer una validación externa, solo verifique sus datos con un solo número.
- Graficar y visualizar datos es una buena manera de entender sus datos. El trazado puede ocurrir en diferentes etapas del análisis de datos. También te ayuda a no desviarte de tus expectativas.
- Se pueden hacer las siguientes preguntas para verificar si está pasando por su análisis
- ¿Tienes los datos correctos?
- ¿Necesitas otros datos?
- ¿Tienes la pregunta correcta?
- EDA tiene dos objetivos principales:
- Modelado formal
- Si su boceto funciona, significa que tiene los datos correctos
- Anote los parámetros que está tratando de estimar
- Si llega a esta etapa, no significa que sus datos sean correctos todo el tiempo
- Ponga a prueba sus resultados a través de una variedad de enfoques como el análisis de sensibilidad
- También asegúrese de que sus datos y el algoritmo utilizado sean reproducibles porque podrían surgir situaciones en las que este proyecto sería la base para otro nuevo análisis.
- Interpretación
- En este punto, probablemente haya realizado muchos análisis diferentes
- Esta fase es para reunir toda la información que tienes después del análisis.
- Ayuda a filtrar los resultados que tienes.
- Sería útil si envía su código a otro clúster o sistema distribuido autoconstruido para ajustarlo.
- El poder predictivo de un modelo radica en su capacidad de generalización.
- Fase de comunicación
- Una vez que el proyecto de ciencia de datos tiene éxito, los hallazgos deben comunicarse a algún tipo de audiencia
- Esta es una fase esencial porque informa el proceso de análisis de datos y traduce sus hallazgos en acciones.
- Asegúrese de que los resultados de su proyecto se visualicen para una comprensión rápida
- En esta fase no se tienen en cuenta las habilidades técnicas. La habilidad esencial requerida es poder contar una historia clara y procesable.
Otra fase informal es la fase de toma de decisiones.
Publicación traducida automáticamente
Artículo escrito por hazel15300 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA