Boxplot representa la distribución de datos cuantitativos que facilitan las comparaciones entre diferentes variables, continuas o categóricas. Es una medida común de dispersión de datos. Los diagramas de caja consisten en un resumen de cinco números que ayuda a detectar y eliminar valores atípicos del conjunto de datos.
- Observación mínima
- Q1 (25% o Cuartil 1)
- Mediana o Q2
- Q3 (75% o Cuartil 2)
- Máxima Observación
Los diagramas de caja agrupados se utilizan para visualizar los datos que tienen múltiples subgrupos. Además, podemos visualizar tres variables a la vez con diagramas de caja agrupados donde una variable es numérica y las otras dos son variables categóricas.
Usaremos la biblioteca Seaborn de Python para crear diagramas de caja agrupados. Usaremos «consejos» de conjuntos de datos de la biblioteca Seaborn.
Python3
# import seaborn library import seaborn as sns # load the dataset data = sns.load_dataset('tips') # view the dataset print(data.head(5))
Producción:
Ejemplo 1: Vamos a crear un diagrama de caja para conocer la distribución de la ‘factura_total’ en cada ‘día’ del conjunto de datos de ‘propinas’. Pero también queremos agruparlo sobre la base del atributo ‘sexo’. Así que trazaremos diagramas de caja agrupados para estos tres atributos donde ‘sexo’ y ‘día’ son atributos categóricos y ‘total_bill’ es un atributo numérico.
Python3
# create grouped boxplot sns.boxplot(x = data['day'], y = data['total_bill'], hue = data['sex'])
Producción:
Ejemplo 2: El siguiente ejemplo es similar al anterior. La única diferencia es el valor del parámetro ‘matiz’ tomado como atributo ‘fumador’. Aquí queremos saber la distribución del grupo ‘total_bill’ vs ‘day’ en función de si una persona fuma o no.
Además, hemos aprendido cómo cambiar los colores de los diagramas de caja usando el atributo ‘paleta’ de boxplot().
Python3
# create another grouped boxplot sns.boxplot(x = data['day'], y = data['total_bill'], hue = data['smoker'], palette = 'Set2')
Producción:
Ejemplo 3: En este ejemplo, cubriremos cómo dibujar más de 2 diagramas de caja agrupados. si el valor del parámetro ‘tono’ tiene más de 2 categorías, podemos trazar más de 2 diagramas de caja agrupados como se muestra a continuación.
Aquí, ‘hue’ = data[‘size’] tiene seis categorías, por lo que podemos ver más de 2 diagramas de caja agrupados utilizando el mismo método que el anterior.
Python3
# create 3rd grouped boxplot sns.boxplot(x = data['day'], y = data['total_bill'], hue = data['size'], palette = 'husl')
Producción:
Publicación traducida automáticamente
Artículo escrito por riyaaggarwal y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA