Un diagrama de caja es una poderosa herramienta de visualización de datos que se utiliza para comprender la distribución de los datos. Divide los datos en cuartiles y los resume en función de cinco números derivados de estos cuartiles:
- mediana: el valor medio de los datos. marcado como Q2, representa el percentil 50.
- primer cuartil: el valor medio entre el «mínimo no atípico» y la mediana. marcado como Q1, representa el percentil 25.
- tercer cuartil: el valor medio entre el “máximo no atípico” y la mediana. marcado como Q3, retrata el percentil 75.
- “máximo no atípico”: calculado por (Q3 + 1.5*IQR). Todos los valores por encima de este se consideran valores atípicos.
- “mínimo no atípico”: calculado por (Q1 – 1.5*IQR). Todos los valores por debajo de este se consideran valores atípicos.
También puede representar la simetría, la asimetría y la dispersión de los datos.
En Python 3, podemos graficar un diagrama de caja usando tres métodos, usando matplotlib, usando pandas o usando seaborn. Aquí, usaremos seaborn, que es un contenedor de matplotlib que proporciona una estrecha integración con las estructuras de datos de pandas y mejores opciones de paleta que matplotlib. Usaremos el método seaborn.boxplot() y luego aprenderemos cómo mostrar la media en el diagrama de caja.
Paso 1: importar las bibliotecas y cargar el conjunto de datos
Python3
# importing useful libraries import seaborn as sns import matplotlib.pyplot as plt # using titanic dataset from # seaborn library df = sns.load_dataset("titanic") # to see first 5 rows of dataset print(df.head())
Paso 2: trace un diagrama de caja básico usando seaborn.boxplot()
Python3
# to plot a boxplot of # age vs survived feature plt.figure(figsize=(10, 8)) sns.boxplot(x='survived', y='age', data=df) plt.ylabel("Age", size=14) plt.xlabel("Survived", size=14) plt.title("Titanic Dataset", size=18)
Observamos que la mediana se muestra como una línea de cuartil, pero no se muestra la media.
Paso 3: para mostrar la media, usamos un argumento de palabra clave adicional en la función de diagrama de caja. Establecemos showmeans como True.
Python3
# boxplot with showmeans plt.figure(figsize=(10, 8)) sns.boxplot(x='survived', y='age', data=df, showmeans=True) # notice the change plt.ylabel("Age", size=14) plt.xlabel("Survived", size=14) plt.title("Titanic Dataset", size=18)
Ahora, observamos que la media está marcada como un triángulo verde, lo que no va bien con nuestro esquema de colores.
Paso 4: para configurar nuestro marcador personalizado y el color del marcador, usaremos el argumento de palabra clave ‘meanprops’ como se muestra en el código a continuación.
Python3
# customizing using meanprops plt.figure(figsize=(10, 8)) sns.boxplot(x='survived', y='age', data=df, showmeans=True, meanprops={"marker": "+", "markeredgecolor": "black", "markersize": "10"}) plt.ylabel("Age", size=14) plt.xlabel("Survived", size=14) plt.title("Titanic Dataset", size=18)
Publicación traducida automáticamente
Artículo escrito por yuvrajgrover y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA