Diagrama de caja estratificado en programación R

Un diagrama de caja es una representación gráfica de grupos de datos numéricos a través de sus cuartiles. Los diagramas de caja no son paramétricos y muestran variaciones en las muestras de una población estadística sin hacer suposiciones sobre la distribución estadística subyacente. Los espacios entre las diferentes partes de la caja en un diagrama de caja indican el grado de dispersión y sesgo en los datos y muestran valores atípicos. El diagrama de caja se puede dibujar tanto vertical como horizontalmente. Boxplot obtuvo su nombre del cuadro en el medio. Los diagramas de caja estratificados se utilizan para examinar la relación entre una variable categórica y una numérica , entre estratos o grupos definidos por una tercera variable categórica. Los diagramas de caja estratificados son útiles cuando se trata de comparar variables categóricas. 

Implementación en R

En la programación R, se puede formar un diagrama de caja estratificado usando la función boxplot() del paquete de gráficos R.

Sintaxis: 

boxplot(fórmula, datos = NULL, …, subconjunto, na.action = NULL, xlab = mklab(y_var = horizontal),

             ylab = mklab(y_var =!horizontal), agregar = FALSO, ann = !agregar, horizontal = FALSO, soltar = FALSO,

             sep = “.”, lex.orden = FALSO)

boxplot(x, …, range = 1.5, width = NULL, varwidth = FALSE, muesca = FALSE, contorno = TRUE, nombres, plot = TRUE,

             border = par(“fg”), col = NULL, log = “”, pars = lista(boxwex = 0.8, grapawex = 0.5, outwex = 0.5),

             ann = !añadir, horizontal = FALSO, añadir = FALSO, en = NULO) 

Parámetro

Descripción

fórmula una fórmula.
datos un data.frame/list de donde se deben tomar las variables en la fórmula.
subconjunto un vector opcional que especifica un subconjunto de observaciones que se utilizará para el trazado.
na.action una función que indica lo que debería suceder cuando los datos contienen NA.
xlab,ylab Anotación en los ejes x e y. Se puede suprimir mediante ann=FALSE.
agregar lógico, si es verdadero, agregue boxplot al gráfico actual.
Ana indicación lógica si los ejes deben ser anotados (por xlab e ylab).
horizontal indicación lógica si los diagramas de caja deben ser horizontales; por defecto FALSO significa cajas verticales.
X

para especificar los datos a partir de los cuales se producirán los diagramas de caja. 

Ya sea un vector numérico o una sola lista que contenga dichos vectores.

rango esto determina qué tan lejos se extienden los bigotes de la trama desde la caja.
ancho un vector que da los anchos relativos de las cajas que forman el gráfico.
ancho de variable

si varwidth es TRUE, las cajas se dibujan con anchos proporcionales a 

las raíces cuadradas del número de observaciones en los grupos.

muesca si la muesca es VERDADERA, se dibuja una muesca en cada lado de las cajas.
contorno si el esquema no es verdadero, los valores atípicos no se dibujan.
nombres etiquetas de grupo que se imprimirán debajo de cada diagrama de caja.
boxwex un factor de escala que se aplicará a todas las cajas.
grapadora Expansión del ancho de la línea de grapas, proporcional al ancho de la caja.
superar Expansión del ancho de la línea atípica, proporcional al ancho del cuadro.
gráfico

si es VERDADERO (el valor predeterminado), se produce un diagrama de caja. Más los resúmenes

 en los que se basan los diagramas de caja.

borde un vector de colores opcional para los contornos de los diagramas de caja.
columnas

si col no es nulo, se supone que contiene colores que se utilizarán para colorear 

los cuerpos de los diagramas de caja.

registros carácter que indica si x o y o ambas coordenadas deben representarse en escala logarítmica.
pares una lista de (potencialmente muchos) más parámetros gráficos.
a

vector numérico que proporciona las ubicaciones donde se deben dibujar los diagramas de caja, 

particularmente cuando add = TRUE.

para el método de fórmula, los argumentos con nombre se pasarán al método predeterminado.

Ejemplo 1: 

Para trazar el diagrama de caja estratificado, use conjuntos de datos mtcars de la biblioteca de conjuntos de datos en R. Los conjuntos de datos mtcars contienen datos de Motor Trend Car Road Tests. Aquí vamos a graficar el kilometraje (millas/galones en este caso) de diferentes autos según el número de marchas que tienen.

R

# Import the required library
library(datasets)
  
# Import the dataframe
cars <- data.frame(mtcars)
  
# Using boxplot()
boxplot(mpg~gear, data = mtcars,
        main = "Different boxplots for number of gears.",
        xlab = "No.of gears",
        ylab = "Mileage",
        col = "orange",
        border = "brown"
)

Boxplot_mtcars

Ejemplo 2: 

El conjunto de datos con el que estamos trabajando aquí es el conjunto de datos LungCapData que contiene datos sobre la capacidad pulmonar de fumadores y no fumadores de diferentes grupos de edad. La estructura de los conjuntos de datos tiene 6 variables, cada una de las cuales significa capacidad pulmonar, edad, altura, humo («sí» para un fumador y «no» para un no fumador), sexo (masculino/femenino) y cesárea (sí/no) de una persona. Dividiremos las edades en grupos y luego intentaremos trazar diagramas de caja estratificados para la capacidad pulmonar de los fumadores frente a los no fumadores con estratos de edad. Descargue el archivo CSV aquí .

R

# Load the dataset
LungCapData <- read.csv("LungCapData.csv", header = T)
LungCapData <- data.frame(LungCapData)
attach(LungCapData)
  
# Catgorise Age into groups
AgeGroups <- cut(LungCapData$Age,
                 breaks = c(0, 13, 15, 17, 25),
                 labels = c("<13", "14/15", "16/17", ">=18"))
head(LungCapData)
  
# BoxPlot 1
boxplot(LungCapData$LungCap~LungCapData$Smoke,
        ylab = "Capacity", 
        main = "Lung Capacity of Smokers Vs Non-Smokers",
        las = 1)
  
# BoxPlot 2
boxplot(LungCapData$LungCap[LungCapData$Age>=18]~LungCapData$Smoke[LungCapData$Age>=18],
        ylab = "Capacity",
        main = "Lung Capacity of Smokers Vs Non-Smokers",
        las = 1)
  
# BoxPlot 3
boxplot(LungCapData$LungCap~LungCapData$Smoke*AgeGroups,
        ylab = "Capacity", xlab = "",
        main = "Lung Capacity of Smokers Vs Non-Smokers",
        col = c(4, 2), las = 2)

Producción:

# diagrama de caja 1

El gráfico de caja 1 representa la capacidad pulmonar de los fumadores y no fumadores, donde no simboliza a los no fumadores y sí simboliza a los fumadores.

BoxPlot1

Al analizar el diagrama de caja que se muestra arriba, podemos decir claramente que la capacidad pulmonar de los no fumadores es menor en comparación con la de los fumadores en promedio.

# diagrama de caja 2

El diagrama de caja 2 representa la capacidad pulmonar de los fumadores y no fumadores del grupo de edad mayor o igual a 18 años, donde el no simboliza a los no fumadores y el sí a los fumadores.

BoxPlot2

# Diagrama de caja 3

El gráfico de caja 3 representa la capacidad pulmonar de los fumadores y no fumadores de los diferentes grupos de edad en el conjunto de datos, donde los gráficos de caja de color azul son para los no fumadores y los rojos para los fumadores.

BoxPlot3

Publicación traducida automáticamente

Artículo escrito por misraaakash1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *