Después de saber qué es la ciencia de datos , los pilares clave de la ciencia de datos, las funciones y responsabilidades de un científico de datos, una de las principales preguntas que surgen es ¿Por qué necesitamos la ciencia de datos? Pero antes de saltar a la pregunta, analicemos brevemente ¿Por qué hacer ciencia de datos? Esto lo motiva a aprender más sobre ciencia de datos.
¿Por qué hacer ciencia de datos?
Hablando de la demanda, existe una inmensa necesidad de personas con habilidades en ciencia de datos. Según el Informe de empleos emergentes de EE. UU. de LinkedIn, el científico de datos de 2020 ocupó el tercer lugar con un crecimiento anual del 37 %. Este campo ha encabezado la lista de Empleos emergentes durante tres años consecutivos. Además, según Glassdoor , en el que enumeraron los 50 trabajos más satisfactorios en Estados Unidos, el científico de datos ocupa el puesto número 3 en los EE. UU. en 2020, según la satisfacción laboral (4.0/5), el salario ($107,801) y la demanda. Según la encuesta de desarrolladores de StackOverflow, 2020: funciones de desarrollador , alrededor del 8,1 % de los encuestados se identifican como científicos de datos o especialistas en aprendizaje automático.
Por lo tanto, este es un buen momento para ingresar a la ciencia de datos: no solo tenemos más datos y más herramientas para recopilarlos, almacenarlos e interpretarlos, sino que la necesidad de científicos de datos crece con frecuencia y se percibe como esencial en muchos. diversos sectores, no sólo empresarial y académico. Así que ahora vamos al tema.
¿Por qué necesitamos la ciencia de datos?
Puede notar que existe el término » datos » en la «ciencia de datos». Entonces, ¿cuáles son los datos reales? Analicemos brevemente el término datos.
¿Qué son los datos?
Como hemos usado algún tiempo discutiendo qué es la ciencia de datos, es necesario dedicar algún tiempo a ver qué son exactamente los datos. Wikipedia define los datos como,
Un conjunto de valores de variables cualitativas o cuantitativas.
Esta definición se centra más en lo que implican los datos. Y aunque es una definición razonablemente corta. Tomemos un segundo para analizar esto y enfocarnos en cada componente individualmente.
- Un conjunto de valores : el primer término en el que concentrarse es «un conjunto de valores» : para tener datos, necesitamos incluir un conjunto de valores. En estadística, este conjunto de valores se conoce como población . Por ejemplo, ese conjunto de valores necesarios para responder a su pregunta podría ser todos los sitios web o aplicaciones, o podría ser el conjunto de todas las personas que obtienen un medicamento en particular o el conjunto de personas que visitan un sitio web en particular. Pero, en general, es un conjunto de cosas sobre las que vas a hacer mediciones.
- Variables : lo siguiente en lo que hay que centrarse son las «variables» : las variables son medidas o características de un artículo. Por ejemplo, podría medir el peso de una persona o estimar la cantidad de tiempo que una persona visita un sitio web o una aplicación. O puede ser otra característica cualitativa que está tratando de medir, como en qué hace clic una persona en un sitio web, o si cree que la persona que visita es hombre o mujer.
- Variables cualitativas y cuantitativas : Por último, tenemos tanto “ variables cualitativas como cuantitativas ”. Las variables cualitativas son información sobre cualidades. Son cosas como el país de origen, el género, la religión, etc. Por lo general, se representan con palabras, no con números, y no están indexadas ni ordenadas. Por otro lado, las variables cuantitativas son información sobre cantidades. Las medidas cuantitativas normalmente se representan mediante números y se estiman en una escala ordenada constante; son algo así como el peso, la altura, la edad y la presión arterial.
Después de obtener un breve conocimiento de los datos, hay otro término que escuchamos con frecuencia: Big Data cuando se trata del mundo de la ciencia de datos. Por lo tanto, merece una introducción aquí, ya que ha sido una parte integral del auge de la ciencia de datos.
¿Qué es Big Data?
Big Data literalmente significa grandes cantidades de datos. Big data es el pilar detrás de la idea de que uno puede hacer inferencias útiles con una gran cantidad de datos que antes no era posible con conjuntos de datos más pequeños. Por lo tanto, los conjuntos de datos extremadamente grandes pueden analizarse computacionalmente para revelar patrones, tendencias y asociaciones que no son transparentes o fáciles de identificar.
¿Por qué todo el mundo está interesado en Big Data?
¡Los grandes datos están en todas partes!
Cada vez que entras a la web y haces algo se recopilan datos, cada vez que compras algo en uno de los e-commerce se recopilan tus datos. Cada vez que va a la tienda, los datos se recopilan en el punto de venta, cuando realiza transacciones bancarias, esos datos están allí, cuando va a las redes sociales como Facebook, Twitter, esos datos se recopilan. Ahora, estos son más datos sociales, pero lo mismo está comenzando a suceder con las plantas de ingeniería reales. Los datos en tiempo real se recopilan de plantas de todo el mundo. No solo esto, si estás haciendo simulaciones mucho más sofisticadas, simulaciones moleculares , que generan toneladas de datos que también se recopilan y almacenan.
¿Cuántos datos son Big Data?
- Google procesa 20 petabytes (PB) por día (2008)
- Facebook tiene 2,5 PB de datos de usuario + 15 TB por día (2009)
- eBay tiene 6,5 PB de datos de usuario + 50 TB por día (2009)
- El Gran Colisionador de Hadrones (LHC) del CERN genera 15 PB al año
Entonces, una de las razones de la aceleración de la ciencia de datos en los últimos años es el enorme volumen de datos ( por ejemplo , Big Data ) actualmente disponibles y que se están generando. No solo se recopilan enormes cantidades de datos sobre muchos aspectos del mundo y de nuestras vidas, sino que al mismo tiempo tenemos el auge de la informática económica. Esto ha formado la tormenta perfecta en la que tenemos datos valiosos y las herramientas para analizarlos. ¡Avanzando en las capacidades de la memoria de la computadora, más software mejorado, procesadores más competentes y ahora, más científicos de datos con las habilidades para poner esto en uso y resolver preguntas usando los datos! Y esa es la gran razón por la que necesitamos la ciencia de datos en el futuro.
Publicación traducida automáticamente
Artículo escrito por AmiyaRanjanRout y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA