En este artículo, entenderemos cómo podemos ignorar o eliminar los valores atípicos en ggplot2 Boxplot en el lenguaje de programación R.
Quitar/ignorar los valores atípicos generalmente no es una buena idea porque resaltar los valores atípicos es generalmente una de las ventajas de usar diagramas de caja. Sin embargo, a veces los valores atípicos extremos, por otro lado, pueden alterar el tamaño y oscurecer otras características de un diagrama de caja, por lo que es mejor dejarlos fuera en esas circunstancias. Podemos eliminar los valores atípicos en R configurando el argumento outlier.shape en NA. Además, la función coord_cartesian() se utilizará para rechazar todos los valores atípicos que excedan o estén por debajo de un cuartil dado. El eje y de ggplot2 no se ajusta automáticamente. Puede ajustar el eje utilizando la función coord_cartesian().
Para crear Boxplot con valores atípicos, necesitamos dos funciones, una es ggplot() y la otra es geom_boxplot()
Conjunto de datos utilizado: Crop_recommendation
Primero creemos un diagrama de caja regular, sin eliminar ningún valor atípico para que la diferencia sea evidente.
Ejemplo:
R
# Loading library(ggplot2) # loading data set and storing it in ds variable ds <- read.csv("c://crop//archive//Crop_recommendation.csv", header = TRUE) ds # create a boxplot by using geom_boxplot() # function of ggplot2 package with outliers box_plot_crop<-ggplot(data=ds, aes( y=rainfall)) box_plot_crop+geom_boxplot()
Producción:
Ahora, para eliminar los valores atípicos, puede usar el argumento outlier.shape to NA.
Sintaxis:
geom_boxplot(outlier.shape = NA)
Puede cambiar el eje directamente con la función coord_cartesian() ya que ggplot2 no ajusta automáticamente los ejes. En coord_catesian() puede establecer el límite de los ejes usando el argumento ylim o xlim.
Sintaxis:
coord_cartesian(xlim = NULO, ylim = NULO, expandir = VERDADERO, predeterminado = FALSO, recortar = «activado»)
Parámetros:
- xlim, ylim -> establece los límites de los ejes x e y y también permite acercar y alejar la imagen.
- expandir : es VERDADERO de forma predeterminada, y si es VERDADERO, aumenta el límite en una pequeña cantidad para garantizar que los datos y los ejes no se superpongan. y si es FALSO entonces el límite se toma de los datos exactos o del xlim/ylim.
- predeterminado : se utiliza para verificar si este es el sistema de coordenadas predeterminado
- clip: comprueba si el dibujo debe recortarse para ajustarse al panel de trazado
Ejemplo:
R
# Loading library(ggplot2) # loading data set and storing it in ds variable ds <- read.csv("c://crop//archive//Crop_recommendation.csv", header = TRUE) ds # remove outliers or create boxplot without outliers box_plot_crop<-ggplot(data=ds, aes(y = rainfall)) box_plot_crop+ geom_boxplot(outlier.shape = NA) + coord_cartesian(ylim = c(50, 300))
Producción: