Visualización de diagramas de caja con Pandas y Seaborn

Box Plot es la representación visual de los grupos de representación de datos numéricos a través de sus cuartiles. Boxplot también se usa para detectar el valor atípico en el conjunto de datos. Captura el resumen de los datos de manera eficiente con un simple cuadro y bigotes y nos permite comparar fácilmente entre grupos. Boxplot resume los datos de una muestra utilizando los percentiles 25, 50 y 75. Estos percentiles también se conocen como el cuartil inferior, la mediana y el cuartil superior.

Un diagrama de caja consta de 5 cosas.

  • Mínimo
  • Primer Cuartil o 25%
  • Mediana (Segundo Cuartil) o 50%
  • Tercer Cuartil o 75%
  • Máximo

Para descargar el conjunto de datos utilizado, haga clic aquí .

Dibuja el diagrama de caja con Pandas:

Una forma de trazar un diagrama de caja usando el marco de datos de pandas es usar boxplot()una función que es parte de la biblioteca de pandas.

# import the required library 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
% matplotlib inline
  
  
# load the dataset
df = pd.read_csv("tips.csv")
  
# display 5 rows of dataset
df.head()   

Diagrama de caja de days con respeto total_bill.

df.boxplot(by ='day', column =['total_bill'], grid = False)


 
Boxplot of size with respect tip.

df.boxplot(by ='size', column =['tip'], grid = False)


 
Draw the boxplot using seaborn library:

Sintaxis:
seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)

Parámetros:
x = característica del conjunto de datos
y = característica del conjunto de datos
tono = característica del conjunto de datos
datos = marco de datos o conjunto de datos completo
color = nombre del color

Veamos cómo crear el diagrama de caja a través de la biblioteca Seaborn.

Información sobre el conjunto de datos de «consejos».

# load the dataset
tips = sns.load_dataset('tips')
  
tips.head()

Diagrama de caja de days con respeto total_bill.

# Draw a vertical boxplot grouped 
# by a categorical variable:
sns.set_style("whitegrid")
  
sns.boxplot(x = 'day', y = 'total_bill', data = tips)

Tomemos el primer diagrama de caja, es decir, el diagrama de caja azul de la figura y entendamos estas cosas estadísticas:

  • La línea horizontal negra inferior del gráfico de caja azul es el valor mínimo
  • La primera línea horizontal negra de forma rectangular del diagrama de caja azul es el primer cuartil o 25%
  • La segunda línea horizontal negra de forma rectangular del diagrama de caja azul es el segundo cuartil o 50% o la mediana.
  • La tercera línea horizontal negra de forma rectangular del diagrama de caja azul es el tercer cuartil o 75%
  • La línea horizontal negra superior de forma rectangular del diagrama de caja azul es el valor máximo.
  • La forma de diamante pequeño del gráfico de caja azul es un dato atípico o erróneo.

Publicación traducida automáticamente

Artículo escrito por shrikanth13 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *