7 conceptos básicos de estadística para la ciencia de datos

El científico de datos es una de las opciones de carrera más lucrativas que ofrece una inmensa satisfacción laboral, un salario increíblemente alto, reconocimiento mundial y oportunidades de crecimiento increíbles. Además, esta profesión ofrece una asombrosa calificación de satisfacción laboral de 4,4 sobre 5. Según Harvard Business Review, el científico de datos se define como la profesión más deseable del siglo XXI. El aprendizaje automático y las estadísticas son las dos habilidades básicas necesarias para convertirse en un científico de datos .

7-Basic-Statistics-Concepts-For-Data-Science

La estadística es como el corazón de la ciencia de datos que ayuda a analizar, transformar y predecir datos. Entonces, si está dispuesto a triunfar en su carrera en este dominio asombroso, entonces es muy importante que se familiarice con todos los temas estadísticos relevantes para la ciencia de datos . La estadística es un campo extremadamente amplio y determinar lo que necesita aprender puede ser difícil. Para que su experiencia de aprendizaje sea fluida, podemos ayudarlo. En este blog, discutiremos los siete conceptos básicos de estadística para la ciencia de datos . Los temas tratados en este blog construirán la base básica de sus habilidades estadísticas.

Entonces empecemos:

1. Estadísticas descriptivas

Se utiliza para describir las características básicas de los datos que proporcionan un resumen del conjunto de datos dado que puede representar a toda la población o a una muestra de la población. Se deriva de cálculos que incluyen:

  • Media: Es el valor central que comúnmente se conoce como promedio aritmético.
  • Moda: Se refiere al valor que aparece con mayor frecuencia en un conjunto de datos.
  • Mediana: Es el valor medio del conjunto ordenado que lo divide exactamente por la mitad.

2. Variabilidad

La variabilidad incluye los siguientes parámetros:

  • Desviación estándar: es una estadística que calcula la dispersión de un conjunto de datos en comparación con su media.
  • Varianza: Se refiere a una medida estadística de la dispersión entre los números en un conjunto de datos. En términos generales, significa la diferencia de la media. Una varianza grande indica que los números están muy lejos del valor medio o promedio. Una pequeña variación indica que los números están más cerca de los valores promedio. La varianza cero indica que los valores son idénticos al conjunto dado.
  • Rango: Esto se define como la diferencia entre el valor más grande y más pequeño de un conjunto de datos.
  • Percentil: se refiere a la medida utilizada en estadísticas que indica el valor por debajo del cual cae el porcentaje dado de observación en el conjunto de datos.
  • Cuartil: Se define como el valor que divide los puntos de datos en cuartos.
  • Rango intercuartílico: Mide la mitad media de sus datos. En términos generales, es el 50% medio del conjunto de datos.

3. Correlación

Es una de las principales técnicas estadísticas que miden la relación entre dos variables. El coeficiente de correlación indica la fuerza de la relación lineal entre dos variables.

  • Un coeficiente de correlación mayor que cero indica una relación positiva.
  • Un coeficiente de correlación menor que cero indica una relación negativa.
  • El coeficiente de correlación cero indica que no existe relación entre las dos variables .

4. Distribución de probabilidad

Especifica la probabilidad de todos los eventos posibles. En términos simples, un evento se refiere al resultado de un experimento, como lanzar una moneda. Los eventos son de dos tipos dependientes e independientes.

  • Evento independiente: se dice que el evento es un evento independiente cuando no se ve afectado por los eventos anteriores. Por ejemplo, al lanzar una moneda, consideremos que se lanza una moneda y el primer resultado es cara cuando la moneda se lanza de nuevo, el resultado puede ser cara o cruz. Pero esto es completamente independiente del primer ensayo.
  • Evento dependiente: se dice que el evento es dependiente cuando la ocurrencia del evento depende de los eventos anteriores. Por ejemplo, cuando se extrae una bola de una bolsa que contiene bolas rojas y azules. Si la primera bola extraída es roja, la segunda bola puede ser roja o azul; esto depende de la primera prueba.

La probabilidad de eventos independientes se calcula simplemente multiplicando la probabilidad de cada evento y para un evento dependiente se calcula por probabilidad condicional.

5. Regresión

Es un método que se utiliza para determinar la relación entre una o más variables independientes y una variable dependiente. La regresión es principalmente de dos tipos:

  • Regresión lineal: Se utiliza para ajustar el modelo de regresión que explica la relación entre una variable predictora numérica y una o más variables predictoras.
  • Regresión logística: Se utiliza para ajustar un modelo de regresión que explica la relación entre la variable respuesta binaria y una o más variables predictoras.

6. Distribución Normal

Normal se usa para definir la función de densidad de probabilidad para una variable aleatoria continua en un sistema. La distribución normal estándar tiene dos parámetros: la media y la desviación estándar que se discutieron anteriormente. Cuando se desconoce la distribución de las variables aleatorias, se utiliza la distribución normal. El teorema del límite central justifica por qué se usa la distribución normal en tales casos.

7. Sesgo

En términos estadísticos, significa cuando un modelo es representativo de una población completa. Esto debe minimizarse para obtener el resultado deseado.

Los tres tipos más comunes de sesgo son:

  • Sesgo de selección: es un fenómeno de selección de un grupo de datos para el análisis estadístico, la selección de tal manera que los datos no son aleatorios, lo que hace que los datos no sean representativos de toda la población.
  • Sesgo de confirmación: Ocurre cuando la persona que realiza el análisis estadístico tiene alguna suposición predefinida.
  • Sesgo de intervalo de tiempo: es causado intencionalmente al especificar un cierto rango de tiempo para favorecer un resultado particular.

Estos fueron algunos de los conceptos estadísticos para la ciencia de datos en los que debe trabajar. Además de estos, también hay otros temas estadísticos para la ciencia de datos que incluyen:

  • Teorema del límite central
  • Compensación de sesgo/varianza
  • Prueba de hipótesis
  • Relación entre variables
  • covarianza

Además, para obtener una descripción general completa del dominio de la ciencia de datos , consulte aquí , o para saber cómo convertirse en un científico de datos , puede visitar este enlace

Publicación traducida automáticamente

Artículo escrito por vanshika4042 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *