¿Cómo mostrar la media en Boxplot usando Seaborn en Python?

Un diagrama de caja es una poderosa herramienta de visualización de datos que se utiliza para comprender la distribución de los datos. Divide los datos en cuartiles y los resume en función de cinco números derivados de estos cuartiles:

  • mediana: el valor medio de los datos. marcado como Q2, representa el percentil 50.
  • primer cuartil: el valor medio entre el «mínimo no atípico» y la mediana. marcado como Q1, representa el percentil 25.
  • tercer cuartil: el valor medio entre el “máximo no atípico” y la mediana. marcado como Q3, retrata el percentil 75.
  • “máximo no atípico”: calculado por (Q3 + 1.5*IQR). Todos los valores por encima de este se consideran valores atípicos.
  • “mínimo no atípico”: calculado por (Q1 – 1.5*IQR). Todos los valores por debajo de este se consideran valores atípicos.

También puede representar la simetría, la asimetría y la dispersión de los datos.

En Python 3, podemos graficar un diagrama de caja usando tres métodos, usando matplotlib, usando pandas o usando seaborn. Aquí, usaremos seaborn, que es un contenedor de matplotlib que proporciona una estrecha integración con las estructuras de datos de pandas y mejores opciones de paleta que matplotlib. Usaremos el método seaborn.boxplot() y luego aprenderemos cómo mostrar la media en el diagrama de caja. 

Paso 1: importar las bibliotecas y cargar el conjunto de datos

Python3

# importing useful libraries
import seaborn as sns
import matplotlib.pyplot as plt
 
# using titanic dataset from
# seaborn library
df = sns.load_dataset("titanic")
 
# to see first 5 rows of dataset
print(df.head())

Primeras 5 filas del conjunto de datos

Paso 2: trace un diagrama de caja básico usando seaborn.boxplot()

Python3

# to plot a boxplot of
# age vs survived feature
plt.figure(figsize=(10, 8))
sns.boxplot(x='survived',
            y='age',
            data=df)
plt.ylabel("Age", size=14)
plt.xlabel("Survived", size=14)
plt.title("Titanic Dataset", size=18)

Observamos que la mediana se muestra como una línea de cuartil, pero no se muestra la media.

diagrama de caja simple

Paso 3: para mostrar la media, usamos un argumento de palabra clave adicional en la función de diagrama de caja. Establecemos showmeans como True.

Python3

# boxplot with showmeans
plt.figure(figsize=(10, 8))
sns.boxplot(x='survived',
            y='age',
            data=df,
            showmeans=True)  # notice the change
plt.ylabel("Age", size=14)
plt.xlabel("Survived", size=14)
plt.title("Titanic Dataset", size=18)

Ahora, observamos que la media está marcada como un triángulo verde, lo que no va bien con nuestro esquema de colores.

trazando la media usando el argumento de palabra clave showmeans

Paso 4: para configurar nuestro marcador personalizado y el color del marcador, usaremos el argumento de palabra clave ‘meanprops’ como se muestra en el código a continuación.

Python3

# customizing using meanprops
plt.figure(figsize=(10, 8))
sns.boxplot(x='survived',
            y='age',
            data=df,
            showmeans=True,
            meanprops={"marker": "+",
                       "markeredgecolor": "black",
                       "markersize": "10"})
plt.ylabel("Age", size=14)
plt.xlabel("Survived", size=14)
plt.title("Titanic Dataset", size=18)

Publicación traducida automáticamente

Artículo escrito por yuvrajgrover y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *