Explorando la distribución de datos | Serie 1

Cada vez que trabajamos en ciencia de datos y aprendizaje automático, nuestro enfoque de manejar los datos y encontrar algo útil se basa en la distribución de los datos.
Distribución significa cómo los datos pueden estar presentes en diferentes formas posibles, el porcentaje de datos específicos, identificando los valores atípicos. Entonces, la distribución de datos es la forma de usar métodos gráficos para organizar y mostrar información útil.

Términos relacionados con la Exploración de la Distribución de Datos

-> Boxplot
-> Frequency Table
-> Histogram 
-> Density Plot
  • Diagrama de caja: se basa en los percentiles de los datos como se muestra en la figura a continuación. La parte superior e inferior de la gráfica de caja son los percentiles 75 y 25 de los datos. Las líneas extendidas se conocen como bigotes que incluyen el rango del resto de los datos.

    Para obtener el enlace al csv archivo utilizado, haga clic aquí .

    Código #1: Cargando Bibliotecas

    import numpy as np
    import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as plt

    Código #2: Cargando Datos

    data = pd.read_csv("../data/state.csv")
      
    # Adding a new column with derived data 
    data['PopulationInMillions'] = data['Population']/1000000
      
    print (data.head(10))

    Producción :

    Código #3: diagrama de caja

    # BoxPlot Population In Millions
    fig, ax1 = plt.subplots()
    fig.set_size_inches(915)
      
    ax1 = sns.boxplot(x = data.PopulationInMillions, orient ="v")
    ax1.set_ylabel("Population by State in Millions", fontsize = 15)
    ax1.set_title("Population - BoxPlot", fontsize = 20)

    Producción :

  • Tabla de frecuencia: es una herramienta para distribuir los datos en rangos, segmentos igualmente espaciados y nos dice cuántos valores caen en cada segmento.

    Código n.° 1: agregar una columna para realizar la función de tabulación cruzada y agrupación.

    # Perform the binning action, the bins have been
    # chosen to accentuate the output for the Frequency Table
      
    data['PopulationInMillionsBins'] = pd.cut(
        data.PopulationInMillions, bins =[0, 1, 2, 5, 8, 12, 15, 20, 50])
      
    print (data.head(10))

    Producción :

    Código n.º 2: tabulación cruzada: un tipo de tabla de frecuencias

    # Cross Tab - a type of Frequency Table
      
    pd.crosstab(data.PopulationInMillionsBins, data.Abbreviation, margins = True)

    Producción :

    Código n.º 3: GroupBy: un tipo de tabla de frecuencias

    # Groupby - a type of Frequency Table
      
    data.groupby(data.PopulationInMillionsBins)['Abbreviation'].apply(', '.join)

    Producción :

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *