Metodología y enfoque de la ciencia de datos

Las personas que trabajan en Data Science y están ocupadas en encontrar las respuestas a diferentes preguntas todos los días se encuentran con la Metodología de Data Science. La Metodología de la Ciencia de Datos indica la rutina para encontrar soluciones a un problema específico. Este es un proceso cíclico que sufre un comportamiento crítico que guía a los analistas de negocios y científicos de datos a actuar en consecuencia. 

  1. Entendimiento de Negocios: 
    Antes de resolver cualquier problema en el dominio de Negocios, es necesario entenderlo adecuadamente. La comprensión empresarial forma una base concreta, lo que conduce a una fácil resolución de consultas. Debemos tener la claridad de cuál es el problema exacto que vamos a resolver.
  2. Comprensión analítica: 
    con base en la comprensión comercial anterior, se debe decidir el enfoque analítico a seguir. Los enfoques pueden ser de 4 tipos: enfoque descriptivo (estado actual e información proporcionada), enfoque de diagnóstico (también conocido como análisis estadístico, qué está sucediendo y por qué está sucediendo), enfoque predictivo (pronostica las tendencias o la probabilidad de eventos futuros) y prescriptivo. enfoque (cómo se debe resolver el problema en realidad).
  3. Requisitos de datos: 
    el método analítico elegido anteriormente indica el contenido, los formatos y las fuentes de datos necesarios que deben recopilarse. Durante el proceso de requisitos de datos, uno debe encontrar las respuestas a preguntas como ‘qué’, ‘dónde’, ‘cuándo’, ‘por qué’, ‘cómo’ y ‘quién’.
  4. Recopilación de datos: 
    los datos recopilados se pueden obtener en cualquier formato aleatorio. Por lo tanto, de acuerdo con el enfoque elegido y el resultado que se obtenga, los datos recopilados deben validarse. Por lo tanto, si es necesario, se pueden recopilar más datos o descartar los datos irrelevantes.
  5. Comprensión de datos: 
    la comprensión de datos responde a la pregunta «¿Son los datos recopilados representativos del problema a resolver?». La estadística descriptiva calcula las medidas aplicadas sobre los datos para acceder al contenido y la calidad de la materia. Este paso puede conducir a volver al paso anterior para su corrección.
  6. Preparación de datos: 
    comprendamos esto conectando este concepto con dos analogías. Una es lavar las verduras recién recolectadas y la segunda es solo tomar los artículos deseados para comer en el plato durante el buffet. El lavado de verduras indica la eliminación de suciedad, es decir, materiales no deseados de los datos. Aquí se realiza la eliminación de ruido. Tomar solo elementos comestibles en el plato es, si no necesitamos datos específicos, entonces no deberíamos considerarlo para un proceso posterior. Todo este proceso incluye transformación, normalización, etc.
  7. Modelado: 
    el modelado decide si los datos preparados para el procesamiento son apropiados o requieren más acabado y condimento. Esta fase se centra en la construcción de modelos predictivos/descriptivos.
  8. Evaluación: 
    la evaluación del modelo se realiza durante el desarrollo del modelo. Comprueba la calidad del modelo a evaluar y también si cumple con los requisitos comerciales. Se somete a una fase de medición de diagnóstico (el modelo funciona según lo previsto y donde se requieren modificaciones) y una fase de prueba de significación estadística (garantiza el manejo e interpretación adecuados de los datos).
  9. Implementación: 
    a medida que el modelo se evalúa de manera efectiva, se prepara para su implementación en el mercado empresarial. La fase de implementación comprueba cuánto puede soportar el modelo en el entorno externo y funciona de manera superior en comparación con otros.
  10. Retroalimentación: 
    la retroalimentación es el propósito necesario que ayuda a refinar el modelo y acceder a su desempeño e impacto. Los pasos involucrados en la retroalimentación definen el proceso de revisión, rastrean el registro, miden la efectividad y revisan con refinamiento.

Después de la reducción exitosa de estos 10 pasos, el modelo no debe dejarse sin tratar, sino que debe realizarse una actualización adecuada en función de los comentarios y la implementación. A medida que surgen nuevas tecnologías, se deben revisar las nuevas tendencias para que el modelo continuamente proporcione valor a las soluciones.
 

Publicación traducida automáticamente

Artículo escrito por ShreyalGajare y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *