Diagrama de ciencia de datos de Drew Conway

Antes de saltar al Diagrama de Venn de la ciencia de datos de Drew Conway, la primera pregunta que surge es: “ ¿Qué es la ciencia de datos? La ciencia de datos pretende varias cosas para varias personas, pero en resumen, la ciencia de datos utiliza datos para responder preguntas. ¡Esta definición es bastante amplia, y eso se debe a que hay que decir que la ciencia de datos es un campo razonablemente amplio!

La ciencia de datos es la ciencia de analizar datos sin procesar utilizando estadísticas y técnicas de aprendizaje automático con el propósito de sacar conclusiones sobre esa información.

En resumen, se puede afirmar que Data Science implica:

  • Estadística, informática, matemáticas
  • Limpieza y formateo de datos
  • Visualización de datos

Entonces, hemos discutido qué es la ciencia de datos y los pilares clave de la ciencia de datos, pero algo más de lo que debemos hablar es quién es exactamente un científico de datos. Un informe especial de The Economist dice que un científico de datos se caracteriza por ser alguien:

“quien combina las habilidades del programador de software , estadístico y artista del slash narrador para evocar los trozos de oro escondidos bajo montañas de datos”

Pero ahora surge la pregunta, ¿qué habilidades tiene un científico de datos? Y para responder a esto, analicemos el popular diagrama de Venn Diagrama de Venn de la ciencia de datos de Drew Conway en el que la ciencia de datos es la intersección de tres sectores: experiencia sustantiva, habilidades de piratería y conocimiento de matemáticas y estadísticas .

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

requiereexaminargeneralmentetransmite

ExplicaciónDiagrama de Venn de Drew Conway

En el diagrama de Venn de ciencia de datos de Drew Conway, los colores primarios de los datos son 

  • Habilidades de pirateo,
  • Conocimientos de matemáticas y estadísticas, y
  • Experiencia sustantiva

Pero la pregunta es ¿por qué ha resaltado estos tres? ¡Así que entendamos el término por qué!

  • Es sabido por todos que los datos son la parte clave de la ciencia de datos. Y los datos son una mercancía comercializada electrónicamente; entonces, para estar en este mercado, uno necesita hablar hacker . Entonces, ¿qué significa esta línea? Ser capaz de administrar archivos de texto en la línea de comandos, aprender operaciones vectorizadas, pensar algorítmicamente; son las habilidades de hacking que hacen que un hacker de datos tenga éxito .
  • Una vez que haya recopilado y limpiado los datos, el siguiente paso es obtener información de ellos. Para hacer esto, debe usar métodos matemáticos y estadísticos apropiados , que exigen al menos una familiaridad básica con estas herramientas. Esto no quiere decir que se requiera un doctorado en estadística para ser un científico de datos hábil, pero sí es necesario comprender qué es una regresión de mínimos cuadrados ordinarios y cómo explicarla.
  • La tercera parte importante es la experiencia sustantiva. Según Drew Conway, » los datos más las matemáticas y las estadísticas solo te permiten aprender de las máquinas» , lo cual es excelente si eso es lo que te interesa, pero no si te dedicas a la ciencia de datos. La ciencia se trata de experimentar y construir conocimiento, lo que exige algunas preguntas motivadoras sobre el mundo e hipótesis que se pueden llevar a los datos y probar con métodos estadísticos.
  • Por otro lado, “la experiencia sustantiva + el conocimiento en matemáticas y estadística es donde cae el máximo investigador tradicional”. Los investigadores de nivel de doctorado dedican la mayor parte de su tiempo a obtener experiencia en estas áreas, pero muy poco tiempo a adquirir tecnología. Parte de esto es la cultura de la academia, que no compensa a los investigadores por conocer la tecnología.
  • Finalmente, un nombre en la «zona de peligro de habilidades de piratería más experiencia sustantiva». Aquí es donde coloca a las personas que «saben lo suficiente como para ser peligrosas», y es el área más cuestionable del diagrama. En esta zona, las personas que son supremamente capaces de extraer y estructurar datos, probablemente asociadas con un campo sobre el que saben bastante, y probablemente incluso saben lo suficiente Rpara ejecutar una regresión lineal y reportar los coeficientes; pero requieren una comprensión de lo que significan esos coeficientes. Es de esta parte del diagrama que surge la frase «mentiras, malditas mentiras y estadísticas», porque ya sea por ignorancia o por desagrado, esta superposición de habilidades le da a la gente la capacidad de crear lo que parece ser un análisis legal sin ningún entendimiento de cómo hacerlo. llegaron allí o lo que han creado. Afortunadamente, se requiere ignorancia intencional para obtener habilidades de piratería y experiencia sustantiva sin aprender algunas matemáticas y estadísticas en el camino.

Publicación traducida automáticamente

Artículo escrito por AmiyaRanjanRout y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *