Crear diagrama de caja para variables continuas usando ggplot2 en R

Los diagramas de caja son una buena manera de resumir la forma de una distribución, mostrando su mediana, su media, la asimetría, los posibles valores atípicos, su dispersión, etc. Los diagramas de caja y bigotes son el otro nombre de los diagramas de caja. Estos gráficos se utilizan principalmente para la exploración de datos. El diagrama de caja es el resumen de cinco números, que es el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.

Un diagrama de caja.

El diagrama de caja resume la distribución de una variable continua, dibujamos una caja desde el primer cuartil hasta el tercer cuartil y una línea vertical atraviesa la caja en la mediana, que es el segundo cuartil, dividiendo los datos en dos porcentajes iguales de 50 abajo y 50 arriba. El primer cuartil (Q1) incluye el primer 25 por ciento de los datos y el tercer cuartil (Q3) incluye el 75 por ciento de los datos. 

Usando la función geom_boxplot() del paquete ggplot2 de R, podemos crear un diagrama de caja simple y también un diagrama de caja a partir de la variable continua:

Sintaxis: geom_boxplot(mapping = NULL, data = NULL,position = “dodge”, outlier.colour = NULL, outlier.shape = 19, outlier.size = 1.5, outlier.stroke = 0.5, …)

Parámetros:

  • mapeo : en este mapeo proporcionamos el nombre de la columna como un argumento para mapear en el gráfico. La asignación predeterminada en geom_boxplot es NULL.
  • datos : este parámetro establece el marco de datos que se utilizará.
  • posición : el argumento de posición especifica cómo se colocará el diagrama de caja durante la representación visual de la figura. El valor predeterminado de la posición es esquivar.
  • outlier.colour: se utiliza para especificar el color predeterminado del valor atípico.
  • outlier.shape: se utiliza para especificar el color predeterminado del valor atípico.
  • outlier.size: se utiliza para especificar el tamaño predeterminado del valor atípico.
  • outlier.stroke:  podemos ocultar los valores atípicos del gráfico usando outlier.shape = NA, solo oculta los valores atípicos, no los elimina.

Para crear un diagrama de caja para una variable continua, primero, instale los paquetes necesarios para dibujar diagramas de caja y luego cree o cargue el conjunto de datos para el que desea dibujar el diagrama de caja. Trace el diagrama de caja usando la función geom_boxplot() como un diagrama de caja normal.

Ejemplo 1:

R

# loading library
library(ggplot2)
   
# creating random dataset
data <- data.frame(y=abs(rnorm(16)),
                   x=rep(c(0,100,200,300,400,
                           500,600,700),
                         each=2))
   
# creating the box plot
ggplot(data, aes(x, y, group=x)) +
     
# plotting the box plot with green color
geom_boxplot(fill="green") +
     
# adding x-axis label
xlab("x-axis") +
     
# adding y-axis label
ylab("y-axis") +
     
# adding title
ggtitle("Continuous Box plot ")

Producción:

diagrama de caja

 Ejemplo 2:

R

# creating box plot for continuous variable   
# loading library
library(ggplot2)
 
# creating random dataset
data <- data.frame(y=abs(rnorm(20)),
                   x=rep(c(10,20,30,40,50,60,
                           70,80,90,100),
                         each=2))
 
# creating the box plot
ggplot(data, aes(x, y, fill=factor(x))) +
  
  # plotting the box plot with green color
  geom_boxplot() +
   
  # adding x-axis label
  xlab("x-axis") +
   
  # adding y-axis label
  ylab("y-axis") +
   
  # adding title
  ggtitle("Continuous Box plot ")

 
 Producción: 

Diagrama de caja coloreada

Publicación traducida automáticamente

Artículo escrito por amnindersingh1414 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *