Los diagramas de caja son una buena manera de resumir la forma de una distribución, mostrando su mediana, su media, la asimetría, los posibles valores atípicos, su dispersión, etc. Los diagramas de caja y bigotes son el otro nombre de los diagramas de caja. Estos gráficos se utilizan principalmente para la exploración de datos. El diagrama de caja es el resumen de cinco números, que es el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
El diagrama de caja resume la distribución de una variable continua, dibujamos una caja desde el primer cuartil hasta el tercer cuartil y una línea vertical atraviesa la caja en la mediana, que es el segundo cuartil, dividiendo los datos en dos porcentajes iguales de 50 abajo y 50 arriba. El primer cuartil (Q1) incluye el primer 25 por ciento de los datos y el tercer cuartil (Q3) incluye el 75 por ciento de los datos.
Usando la función geom_boxplot() del paquete ggplot2 de R, podemos crear un diagrama de caja simple y también un diagrama de caja a partir de la variable continua:
Sintaxis: geom_boxplot(mapping = NULL, data = NULL,position = “dodge”, outlier.colour = NULL, outlier.shape = 19, outlier.size = 1.5, outlier.stroke = 0.5, …)
Parámetros:
- mapeo : en este mapeo proporcionamos el nombre de la columna como un argumento para mapear en el gráfico. La asignación predeterminada en geom_boxplot es NULL.
- datos : este parámetro establece el marco de datos que se utilizará.
- posición : el argumento de posición especifica cómo se colocará el diagrama de caja durante la representación visual de la figura. El valor predeterminado de la posición es esquivar.
- outlier.colour: se utiliza para especificar el color predeterminado del valor atípico.
- outlier.shape: se utiliza para especificar el color predeterminado del valor atípico.
- outlier.size: se utiliza para especificar el tamaño predeterminado del valor atípico.
- outlier.stroke: podemos ocultar los valores atípicos del gráfico usando outlier.shape = NA, solo oculta los valores atípicos, no los elimina.
Para crear un diagrama de caja para una variable continua, primero, instale los paquetes necesarios para dibujar diagramas de caja y luego cree o cargue el conjunto de datos para el que desea dibujar el diagrama de caja. Trace el diagrama de caja usando la función geom_boxplot() como un diagrama de caja normal.
Ejemplo 1:
R
# loading library library(ggplot2) # creating random dataset data <- data.frame(y=abs(rnorm(16)), x=rep(c(0,100,200,300,400, 500,600,700), each=2)) # creating the box plot ggplot(data, aes(x, y, group=x)) + # plotting the box plot with green color geom_boxplot(fill="green") + # adding x-axis label xlab("x-axis") + # adding y-axis label ylab("y-axis") + # adding title ggtitle("Continuous Box plot ")
Producción:
Ejemplo 2:
R
# creating box plot for continuous variable # loading library library(ggplot2) # creating random dataset data <- data.frame(y=abs(rnorm(20)), x=rep(c(10,20,30,40,50,60, 70,80,90,100), each=2)) # creating the box plot ggplot(data, aes(x, y, fill=factor(x))) + # plotting the box plot with green color geom_boxplot() + # adding x-axis label xlab("x-axis") + # adding y-axis label ylab("y-axis") + # adding title ggtitle("Continuous Box plot ")
Producción:
Publicación traducida automáticamente
Artículo escrito por amnindersingh1414 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA