La ciencia de datos es un campo interdisciplinario de métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento o información de los datos en varias formas, ya sea estructuradas o no estructuradas, similar a la minería de datos. Big Data Analytics o Data Science es un término muy común en la industria de TI porque todos saben que es un término elegante que nos ayudará a lidiar con la gran cantidad de datos que estamos generando en estos días. Veamos cuáles son las habilidades requeridas:
- Habilidades matemáticas:
- Cálculo multivariable y álgebra lineal : estas dos cosas son muy importantes ya que nos ayudan a comprender varios algoritmos de aprendizaje automático que juegan un papel importante en la ciencia de datos.
- Probabilidad y estadística : comprender la estadística es muy importante ya que es la rama del análisis de datos. La teoría de la probabilidad también es importante para las estadísticas y se menciona como un requisito previo para aprender el aprendizaje automático.
- Habilidades en programación:
- Conocimientos de programación : debe tener una buena comprensión de los conceptos de programación, como las estructuras de datos y los algoritmos. Los lenguajes utilizados son python, R, Java y Scala. C++ también se usa en algunos lugares donde el rendimiento es extremadamente importante.
- Bases de datos relacionales : necesita conocer bases de datos como SQL u Oracle para poder obtener los datos requeridos de ellas cuando sea necesario.
- Bases de datos no relacionales : estas son de muchos tipos, pero los tipos más utilizados son: i) Columna: Cassandra, HBase ii) Documento: MongoDB, CouchDB iii) Clave-valor: Redis, Dynamo
- Computación distribuida : es una de las habilidades más importantes para manejar una gran cantidad de datos porque no podemos procesar tantos datos en un solo sistema. Las herramientas que se utilizan principalmente son Apache Hadoop y Spark. Tiene dos partes principales: HDFS, es decir, Hadoop Distributed File System, que se utiliza para almacenar datos en un sistema de archivos distribuido. La otra parte es map-reduce por la cual procesamos datos. Podemos escribir map-reduce en programas en java o python. También hay muchas otras herramientas, como PIG y HIVE.
- Aprendizaje automático : es una de las partes más importantes de la ciencia de datos y el tema candente de investigación entre los investigadores, por lo que cada año se realizan nuevos desarrollos en esto. Al menos necesita conocer algoritmos comunes de aprendizaje supervisado y no supervisado. Hay muchas bibliotecas disponibles en python y R. Lista de bibliotecas de Python : i) Bibliotecas básicas: NumPy, SciPy, Pandas, Ipython, matpolib ii) Bibliotecas para aprendizaje automático: sci-kit-learn, Theano, TensorFlow iii) Bibliotecas para datos Minería y procesamiento de lenguaje natural: Scrapy, NLTK, Pattern
- Conocimiento del dominio La mayoría de las personas ignoran este pensamiento de que no es importante, pero es muy, muy importante. Todo el propósito de la ciencia de datos es extraer información útil de esos datos para que pueda ser beneficioso para el negocio de una empresa. Si no comprende el lado comercial de su empresa, como cómo funciona el modelo comercial de su empresa y cómo puede mejorarlo, entonces no es de utilidad para la empresa. Debe comprender cómo hacer las preguntas correctas a la persona adecuada para que pueda obtener la información valiosa que necesita para extraer la información que necesita. Hay algunas herramientas de visualización que se utilizan en este aspecto comercial, como Tableau, que lo ayuda a mostrar sus resultados útiles en un formato no técnico adecuado, como gráficos o gráficos circulares, que la gente de negocios puede entender.
Publicación traducida automáticamente
Artículo escrito por Robin Siwach y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA