ANOVA, también conocido como análisis de varianza, se utiliza para investigar las relaciones entre las variables categóricas y la variable continua en la programación R. Es un tipo de prueba de hipótesis para la varianza de la población.
R-Prueba de ANOVA
La prueba ANOVA implica configurar:
- Hipótesis Nula: Todas las medias poblacionales son iguales.
- Hipótesis alternativa: Al menos una media poblacional es diferente de otra.
Las pruebas ANOVA son de dos tipos:
- ANOVA de una vía: toma en consideración un grupo categórico.
- ANOVA de dos vías: toma en consideración dos grupos categóricos.
El conjunto de datos
Se utiliza el conjunto de datos mtcars (motor trend car road test) que consta de 32 marcas de automóviles y 11 atributos. El conjunto de datos viene preinstalado en el paquete dplyr en R.
Para comenzar con ANOVA, debemos instalar y cargar el paquete dplyr .
Realización de la prueba ANOVA de una vía en lenguaje R
La prueba ANOVA de una vía se realiza utilizando el conjunto de datos mtcars que viene preinstalado con el paquete dplyr entre el atributo disp, un atributo continuo y el atributo gear, un atributo categórico.
R
# Installing the package install.packages(dplyr) # Loading the package library(dplyr) # Variance in mean within group and between group boxplot(mtcars$disp~factor(mtcars$gear), xlab = "gear", ylab = "disp") # Step 1: Setup Null Hypothesis and Alternate Hypothesis # H0 = mu = mu01 = mu02(There is no difference # between average displacement for different gear) # H1 = Not all means are equal # Step 2: Calculate test statistics using aov function mtcars_aov <- aov(mtcars$disp~factor(mtcars$gear)) summary(mtcars_aov) # Step 3: Calculate F-Critical Value # For 0.05 Significant value, critical value = alpha = 0.05 # Step 4: Compare test statistics with F-Critical value # and conclude test p < alpha, Reject Null Hypothesis
Producción:
El diagrama de caja muestra los valores medios del engranaje con respecto al desplazamiento. Escuche que la variable categórica es el engranaje en el que se usa la función del factor y la variable continua se disp.
El resumen muestra que el atributo de engranaje es muy importante para el desplazamiento (tres estrellas lo indican). Además, el valor P es inferior a 0,05, por lo que prueba que el engranaje es importante para el desplazamiento, es decir, está relacionado entre sí y rechazamos la hipótesis nula.
Realización de la prueba ANOVA de dos vías en R
La prueba ANOVA bidireccional se realiza utilizando el conjunto de datos mtcars que viene preinstalado con el paquete dplyr entre el atributo disp, un atributo continuo y el atributo de engranaje, un atributo categórico, un atributo am, un atributo categórico.
R
# Installing the package install.packages(dplyr) # Loading the package library(dplyr) # Variance in mean within group and between group boxplot(mtcars$disp~mtcars$gear, subset = (mtcars$am == 0), xlab = "gear", ylab = "disp", main = "Automatic") boxplot(mtcars$disp~mtcars$gear, subset = (mtcars$am == 1), xlab = "gear", ylab = "disp", main = "Manual") # Step 1: Setup Null Hypothesis and Alternate Hypothesis # H0 = mu0 = mu01 = mu02(There is no difference between # average displacement for different gear) # H1 = Not all means are equal # Step 2: Calculate test statistics using aov function mtcars_aov2 <- aov(mtcars$disp~factor(mtcars$gear) * factor(mtcars$am)) summary(mtcars_aov2) # Step 3: Calculate F-Critical Value # For 0.05 Significant value, critical value = alpha = 0.05 # Step 4: Compare test statistics with F-Critical value # and conclude test p < alpha, Reject Null Hypothesis
Producción:
El diagrama de caja muestra los valores medios del engranaje con respecto al desplazamiento. Escuche que las variables categóricas son engranajes y am en las que se usa la función de factor y la variable continua es disp.
El resumen muestra que el atributo del arte es muy significativo para el desplazamiento (tres estrellas lo indican) y el atributo am no es muy significativo para el desplazamiento. El valor P del engranaje es inferior a 0,05, por lo que demuestra que el engranaje es importante para el desplazamiento, es decir, está relacionado entre sí. El valor P de am es mayor que 0,05, am no es significativo para el desplazamiento, es decir, no está relacionado entre sí.
Resultados
Vemos resultados significativos de diagramas de caja y resúmenes.
- El desplazamiento está fuertemente relacionado con las marchas en los automóviles, es decir, el desplazamiento depende de las marchas con p < 0,05.
- El desplazamiento está fuertemente relacionado con los engranajes pero no con el modo de transmisión en automóviles con p 0.05 con am.