Ignorar valores atípicos en ggplot2 Boxplot en R

En este artículo, entenderemos cómo podemos ignorar o eliminar los valores atípicos en ggplot2 Boxplot en el lenguaje de programación R.

Quitar/ignorar los valores atípicos generalmente no es una buena idea porque resaltar los valores atípicos es generalmente una de las ventajas de usar diagramas de caja. Sin embargo, a veces los valores atípicos extremos, por otro lado, pueden alterar el tamaño y oscurecer otras características de un diagrama de caja, por lo que es mejor dejarlos fuera en esas circunstancias. Podemos eliminar los valores atípicos en R configurando el argumento outlier.shape en NA. Además, la función coord_cartesian() se utilizará para rechazar todos los valores atípicos que excedan o estén por debajo de un cuartil dado. El eje y de ggplot2 no se ajusta automáticamente. Puede ajustar el eje utilizando la función coord_cartesian().

Para crear Boxplot con valores atípicos, necesitamos dos funciones, una es ggplot() y la otra es geom_boxplot()

Conjunto de datos utilizado: Crop_recommendation

Primero creemos un diagrama de caja regular, sin eliminar ningún valor atípico para que la diferencia sea evidente.

Ejemplo:

R

# Loading
library(ggplot2)
  
# loading data set and storing it in ds variable
ds <- read.csv("c://crop//archive//Crop_recommendation.csv", header = TRUE)
ds
  
# create a boxplot by using geom_boxplot() 
# function of ggplot2 package with outliers
box_plot_crop<-ggplot(data=ds, aes( y=rainfall))
  
box_plot_crop+geom_boxplot()

Producción:

 

Ahora, para eliminar los valores atípicos, puede usar el argumento outlier.shape to NA.

Sintaxis:

geom_boxplot(outlier.shape = NA)

Puede cambiar el eje directamente con la función coord_cartesian() ya que ggplot2 no ajusta automáticamente los ejes. En coord_catesian() puede establecer el límite de los ejes usando el argumento ylim o xlim.

Sintaxis:

coord_cartesian(xlim = NULO, ylim = NULO, expandir = VERDADERO, predeterminado = FALSO, recortar = «activado»)

Parámetros:

  • xlim, ylim -> establece los límites de los ejes x e y y también permite acercar y alejar la imagen.
  • expandir : es VERDADERO de forma predeterminada, y si es VERDADERO, aumenta el límite en una pequeña cantidad para garantizar que los datos y los ejes no se superpongan. y si es FALSO entonces el límite se toma de los datos exactos o del xlim/ylim.
  • predeterminado : se utiliza para verificar si este es el sistema de coordenadas predeterminado 
  • clip: comprueba si el dibujo debe recortarse para ajustarse al panel de trazado

Ejemplo:

R

# Loading
library(ggplot2)
  
# loading data set and storing it in ds variable
ds <- read.csv("c://crop//archive//Crop_recommendation.csv", header = TRUE)
ds
  
# remove outliers or create boxplot without outliers
box_plot_crop<-ggplot(data=ds, aes(y = rainfall)) 
box_plot_crop+ geom_boxplot(outlier.shape = NA) +
  coord_cartesian(ylim =  c(50, 300))

Producción: 

Publicación traducida automáticamente

Artículo escrito por AnujMehla y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *