El diagrama de caja también se denomina diagrama de bigotes y proporciona un resumen de un conjunto de datos que incluye el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo. Este diagrama de caja está presente en la biblioteca matplotlib. En el gráfico de diagrama de caja, el eje x representa los datos que vamos a graficar y el eje y representa la frecuencia.
Método 1: usar la función DataFrame_Name[‘column_name’].plot()
Podemos crear un diagrama de caja en cada columna de un Pandas DataFrame siguiendo la siguiente sintaxis:
DataFrame_Name[‘column_name’].plot(kind=’box’, title=’title_of_plot’)
Nota: Podemos encontrar los valores del primer cuartil, la mediana y los valores del tercer cuartil usando el método del cuantil .
Sintaxis para encontrar cuartiles
data.quantile([0.25,0.5,0.75])
- 0,25 indica el primer cuartil.
- 0,5 indica el valor de la mediana.
- 0,75 indica el tercer cuartil.
Ejemplo para encontrar cuartiles de un dato
Python3
# import necessary packages import pandas as pd data = pd.Series([1, 2, 3, 4, 5, 6]) # find quartile values print(data.quantile([0.25, 0.5, 0.75]))
Producción
0.25 2.25 0.50 3.50 0.75 4.75 dtype: float64
Considere los datos a continuación para crear un DataFrame y trazar un diagrama de caja en él.
Nombre |
Marcas |
Créditos |
---|---|---|
Akhil |
77 |
8 |
Nikhil |
95 |
10 |
Satyam |
89 |
9 |
Sravan |
78 |
8 |
Pavana |
64 |
7 |
Ejemplo:
Cree un marco de datos utilizando los datos anteriores y trace el diagrama de caja en las marcas de un estudiante. La línea inferior indica las calificaciones mínimas de un estudiante y la línea superior indica las calificaciones máximas de un estudiante. Entre la parte inferior y superior, las 3 líneas del medio indican el 1er cuartil, la mediana y el 3er cuartil respectivamente.
Python3
# import necessary packages import pandas as pd import matplotlib.pyplot as plt # create a dataframe data = pd.DataFrame({'Name': ['Akhil', 'Nikhil', 'Satyam', 'Sravan', 'Pavan'], 'Marks': [77, 95, 89, 78, 64], 'Credits': [8, 10, 9, 8, 7]}) # box plot data['Marks'].plot(kind='box', title='Marks of students') plt.show()
Producción:
Ejemplo:
En este ejemplo, la nota mínima del alumno es 10, que es muy pequeña y está muy lejos de otras notas (puntos de datos). Por lo tanto, se indica como o en la parte inferior, lo que representa un valor atípico. Si alguno de los puntos de datos en los datos es mucho más grande o más pequeño en comparación con otros valores, se generará el siguiente gráfico.
Python3
# import necessary packages import pandas as pd import matplotlib.pyplot as plt # create a dataframe data = pd.DataFrame({'Name': ['Akhil', 'Nikhil', 'Satyam', 'Sravan', 'Pavan'], 'Marks': [77, 95, 89, 78, 10], 'Credits': [8, 10, 9, 8, 0]}) # outlier box plot data['Marks'].plot(kind='box', title='Marks of students') plt.show()
Producción:
Método 2: Usar la función pandas.DataFrame.boxplot()
También podemos usar pandas.DataFrame.boxplot para dibujar el diagrama de caja para las columnas respectivas en un DataFrame.
Sintaxis
DataFrameName.boxplot(columna=’columna_nombre’,grid=Verdadero/Falso)
grid indica líneas de cuadrícula en un gráfico. Es un parámetro opcional, si no se especifica se considerará verdadero.
Ejemplo:
Aquí trazamos el diagrama de caja usando el método de diagrama de caja en lugar de usar el método de diagrama y especificando su tipo. Como no especificamos el argumento de cuadrícula como parámetro en el método de diagrama de caja, considerará el valor predeterminado, es decir, Verdadero.
Python3
# import necessary packages import pandas as pd # create a dataframe data = pd.DataFrame({'Name': ['Akhil', 'Nikhil', 'Satyam', 'Sravan', 'Pavan'], 'Marks': [77, 95, 89, 78, 64], 'Credits': [8, 10, 9, 8, 7]}) # box plot for marks column data.boxplot(column='Marks')
Producción:
Publicación traducida automáticamente
Artículo escrito por akhilvasabhaktula03 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA