En este artículo, veremos el enfoque para eliminar los valores atípicos del conjunto de datos utilizando las funciones integradas en el lenguaje de programación R.
Los valores atípicos son puntos de datos que no se ajustan al patrón del resto del conjunto de datos. La mejor manera de detectar los valores atípicos en el conjunto de datos dado es trazar el diagrama de caja del conjunto de datos y el punto ubicado fuera del cuadro en el diagrama de caja son todos los valores atípicos en el conjunto de datos. En este enfoque para eliminar los valores atípicos del conjunto de datos dado, el usuario solo necesita trazar el diagrama de caja del conjunto de datos dado usando la función boxplot() simple, y si encuentra la presencia de valores atípicos en los datos dados, el usuario necesita llame a la función boxplot.stats(), que es una función base del lenguaje R, y pase los parámetros requeridos a esta función, lo que conducirá a la eliminación de los valores atípicos presentes en los conjuntos de datos dados.
La función boxplot.stats() suele ser llamada por otra función para recopilar las estadísticas necesarias para producir diagramas de caja, pero se puede invocar por separado.
Sintaxis: boxplot.stats(x, coef = 1.5, do.conf = TRUE, do.out = TRUE)
Parámetros:
- x: un vector numérico para el cual se construirá el diagrama de caja.
- coef: determina qué tan lejos se extienden los ‘bigotes’ de la trama desde la caja.
- do.conf, do.out: lógicos; si es FALSO, el componente conf o out respectivamente estará vacío en el resultado.
Veamos primero un gráfico regular sin eliminar los valores atípicos.
Ejemplo: Parcela inicial
R
gfg<-rnorm(500) gfg[1:10]<-c(-4,2,5,6,4,1,-5,8,9,-6) boxplot(gfg)
Producción:
Ahora visualicemos de nuevo el gráfico anterior, pero esta vez sin valores atípicos aplicando el enfoque dado.
Ejemplo: eliminación de valores atípicos mediante la función boxplot.stats()-
R
gfg<-rnorm(500) gfg[1:10]<-c(-4,2,5,6,4,1,-5,8,9,-6) gfg <- gfg[!gfg %in% boxplot.stats(gfg)$out] boxplot(gfg)
Producción: