Estadística descriptiva – Part 1

En las estadísticas descriptivas, describimos nuestros datos con la ayuda de varios métodos representativos, como el uso de cuadros, gráficos, tablas, archivos de Excel, etc. En las estadísticas descriptivas, describimos nuestros datos de alguna manera y los presentamos de manera significativa para que puede entenderse fácilmente. La mayoría de las veces se realiza en conjuntos de datos pequeños y este análisis nos ayuda mucho a predecir algunas tendencias futuras en función de los hallazgos actuales. Algunas medidas que se utilizan para describir un conjunto de datos son medidas de tendencia central y medidas de variabilidad o dispersión.

Tipos de estadística descriptiva:

  • Medida de tendencia central
  • Medida de variabilidad

Medida de tendencia central:
Representa todo el conjunto de datos por un solo valor. Nos da la ubicación de los puntos centrales. Hay tres medidas principales de tendencia central:

  • Significar
  • Modo
  • Mediana

  1. Significar:

    Es la suma de la observación dividida por el número total de observaciones. También se define como promedio, que es la suma dividida por la cuenta.

    donde, n = número de términos
    Código de Python para encontrar la media en python

    import numpy as np
      
    # Sample Data
    arr = [5, 6, 11]      
    # Mean
    mean = np.mean(arr)      
      
    print("Mean = ", mean)

    Producción :

    Mean =  7.333333333333333
    
  2. Moda:
    Es el valor que tiene la frecuencia más alta en el conjunto de datos dado. El conjunto de datos puede no tener moda si la frecuencia de todos los puntos de datos es la misma. Además, podemos tener más de un modo si encontramos dos o más puntos de datos que tienen la misma frecuencia.

    Código para encontrar el modo en python

    from scipy import stats
      
    # sample Data
    arr =[1, 2, 2, 3]     
      
    # Mode
    mode = stats.mode(arr)      
    print("Mode = ", mode)

    Producción:

    Mode =  ModeResult(mode=array([2]), count=array([2]))
  3. Mediana:
    Es el valor medio del conjunto de datos. Divide los datos en dos mitades. Si el número de elementos en el conjunto de datos es impar, entonces el elemento central es la mediana y si es par, la mediana sería el promedio de dos elementos centrales.

    donde, n=número de términos del
    código Python para encontrar la mediana

    import numpy as np
      
    # sample Data
    arr =[1, 2, 3, 4]    
      
    # Median
    median = np.median(arr)   
      
    print("Median = ", median)

    Producción:

    Median =  2.5
    
  4. Medida de variabilidad:
    la medida de variabilidad se conoce como la dispersión de datos o qué tan bien se distribuyen nuestros datos. Las medidas de variabilidad más comunes son:

  • Rango
  • Diferencia
  • Desviación Estándar
  1. Rango:

    El rango describe la diferencia entre el punto de datos más grande y más pequeño en nuestro conjunto de datos. Cuanto mayor sea el rango, mayor será la difusión de los datos y viceversa.

    Rango = valor de datos más grande – valor de datos más pequeño

    Código de Python para encontrar el rango

    import numpy as np
      
    # Sample Data
    arr = [1, 2, 3, 4, 5]     
      
    #Finding Max
    Maximum = max(arr)          
    # Finding Min 
    Minimum = min(arr) 
      
    # Difference Of Max and Min          
    Range = Maximum-Minimum     
    print("Maximum = {}, Minimum = {} and Range = {}".format(
            Maximum, Minimum, Range))

    Producción:

    Maximum = 5, Minimum = 1 and Range = 4
  2. Varianza:
    Se define como la desviación media al cuadrado de la media. Se calcula encontrando la diferencia entre cada punto de datos y el promedio, que también se conoce como la media, elevándolos al cuadrado, sumándolos todos y luego dividiendo por la cantidad de puntos de datos presentes en nuestro conjunto de datos.

    donde N = número de términos
    u =
    código medio de Python para encontrar la varianza

    import statistics 
      
    # sample data 
    arr = [1, 2, 3, 4, 5]     
    # variance
    print("Var = ", (statistics.variance(arr)))     

    Producción:

    Var =  2.5
  3. Desviación Estándar:
    Se define como la raíz cuadrada de la varianza. Se calcula encontrando la media, luego restando cada número de la media, que también se conoce como promedio, y elevando al cuadrado el resultado. Sumando todos los valores y luego dividiendo por el número de términos seguido de la raíz cuadrada.

    donde N = número de términos
    u =
    código medio de Python para realizar la desviación estándar:

    import statistics 
      
    # sample data 
    arr = [1, 2, 3, 4, 5]     
    # Standard Deviation
    print("Std = ", (statistics.stdev(arr)))    

    Producción:

    Std = 1.5811388300841898

Referencias: Fórmulas
de Wikipedia de Big Data

Publicación traducida automáticamente

Artículo escrito por niharikasurange9 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *