Box Plot es la representación visual de los grupos de representación de datos numéricos a través de sus cuartiles. Boxplot también se usa para detectar el valor atípico en el conjunto de datos. Captura el resumen de los datos de manera eficiente con un simple cuadro y bigotes y nos permite comparar fácilmente entre grupos. Boxplot resume los datos de una muestra utilizando los percentiles 25, 50 y 75. Estos percentiles también se conocen como el cuartil inferior, la mediana y el cuartil superior.
Un diagrama de caja consta de 5 cosas.
- Mínimo
- Primer Cuartil o 25%
- Mediana (Segundo Cuartil) o 50%
- Tercer Cuartil o 75%
- Máximo
Para descargar el conjunto de datos utilizado, haga clic aquí .
Dibuja el diagrama de caja con Pandas:
Una forma de trazar un diagrama de caja usando el marco de datos de pandas es usar boxplot()
una función que es parte de la biblioteca de pandas.
# import the required library import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline # load the dataset df = pd.read_csv("tips.csv") # display 5 rows of dataset df.head()
Diagrama de caja de days
con respeto total_bill
.
df.boxplot(by ='day', column =['total_bill'], grid = False)
Boxplot of size
with respect tip
.
df.boxplot(by ='size', column =['tip'], grid = False)
Draw the boxplot using seaborn library:
Sintaxis:
seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
Parámetros:
x = característica del conjunto de datos
y = característica del conjunto de datos
tono = característica del conjunto de datos
datos = marco de datos o conjunto de datos completo
color = nombre del color
Veamos cómo crear el diagrama de caja a través de la biblioteca Seaborn.
Información sobre el conjunto de datos de «consejos».
# load the dataset tips = sns.load_dataset('tips') tips.head()
Diagrama de caja de days
con respeto total_bill
.
# Draw a vertical boxplot grouped # by a categorical variable: sns.set_style("whitegrid") sns.boxplot(x = 'day', y = 'total_bill', data = tips)
- La línea horizontal negra inferior del gráfico de caja azul es el valor mínimo
- La primera línea horizontal negra de forma rectangular del diagrama de caja azul es el primer cuartil o 25%
- La segunda línea horizontal negra de forma rectangular del diagrama de caja azul es el segundo cuartil o 50% o la mediana.
- La tercera línea horizontal negra de forma rectangular del diagrama de caja azul es el tercer cuartil o 75%
- La línea horizontal negra superior de forma rectangular del diagrama de caja azul es el valor máximo.
- La forma de diamante pequeño del gráfico de caja azul es un dato atípico o erróneo.
Publicación traducida automáticamente
Artículo escrito por shrikanth13 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA