Prueba ANOVA en Programación R

ANOVA, también conocido como análisis de varianza, se utiliza para investigar las relaciones entre las variables categóricas y la variable continua en la programación R. Es un tipo de prueba de hipótesis para la varianza de la población. 

 R-Prueba de ANOVA

La prueba ANOVA implica configurar: 

  • Hipótesis Nula: Todas las medias poblacionales son iguales.
  • Hipótesis alternativa: Al menos una media poblacional es diferente de otra.

Las pruebas ANOVA son de dos tipos: 

  • ANOVA de una vía: toma en consideración un grupo categórico.
  • ANOVA de dos vías: toma en consideración dos grupos categóricos.

El conjunto de datos

Se utiliza el conjunto de datos mtcars (motor trend car road test) que consta de 32 marcas de automóviles y 11 atributos. El conjunto de datos viene preinstalado en el paquete dplyr en R. 

Para comenzar con ANOVA, debemos instalar y cargar el paquete dplyr .

Realización de la prueba ANOVA de una vía en lenguaje R

La prueba ANOVA de una vía se realiza utilizando el conjunto de datos mtcars que viene preinstalado con el paquete dplyr entre el atributo disp, un atributo continuo y el atributo gear, un atributo categórico.

R

# Installing the package
install.packages(dplyr)
 
# Loading the package
library(dplyr)
 
# Variance in mean within group and between group
boxplot(mtcars$disp~factor(mtcars$gear),
        xlab = "gear", ylab = "disp")
 
# Step 1: Setup Null Hypothesis and Alternate Hypothesis
# H0 = mu = mu01 = mu02(There is no difference
# between average displacement for different gear)
# H1 = Not all means are equal
 
# Step 2: Calculate test statistics using aov function
mtcars_aov <- aov(mtcars$disp~factor(mtcars$gear))
summary(mtcars_aov)
 
# Step 3: Calculate F-Critical Value
# For 0.05 Significant value, critical value = alpha = 0.05
 
# Step 4: Compare test statistics with F-Critical value
# and conclude test p < alpha, Reject Null Hypothesis

Producción:

El diagrama de caja muestra los valores medios del engranaje con respecto al desplazamiento. Escuche que la variable categórica es el engranaje en el que se usa la función del factor y la variable continua se disp.

El resumen muestra que el atributo de engranaje es muy importante para el desplazamiento (tres estrellas lo indican). Además, el valor P es inferior a 0,05, por lo que prueba que el engranaje es importante para el desplazamiento, es decir, está relacionado entre sí y rechazamos la hipótesis nula.

Realización de la prueba ANOVA de dos vías en R

La prueba ANOVA bidireccional se realiza utilizando el conjunto de datos mtcars que viene preinstalado con el paquete dplyr entre el atributo disp, un atributo continuo y el atributo de engranaje, un atributo categórico, un atributo am, un atributo categórico.

R

# Installing the package
install.packages(dplyr)
 
# Loading the package
library(dplyr)
 
# Variance in mean within group and between group
boxplot(mtcars$disp~mtcars$gear, subset = (mtcars$am == 0),
        xlab = "gear", ylab = "disp", main = "Automatic")
boxplot(mtcars$disp~mtcars$gear, subset = (mtcars$am == 1),
            xlab = "gear", ylab = "disp", main = "Manual")
 
# Step 1: Setup Null Hypothesis and Alternate Hypothesis
# H0 = mu0 = mu01 = mu02(There is no difference between
# average displacement for different gear)
# H1 = Not all means are equal
 
# Step 2: Calculate test statistics using aov function
mtcars_aov2 <- aov(mtcars$disp~factor(mtcars$gear) *
                            factor(mtcars$am))
summary(mtcars_aov2)
 
# Step 3: Calculate F-Critical Value
# For 0.05 Significant value, critical value = alpha = 0.05
 
# Step 4: Compare test statistics with F-Critical value
# and conclude test p < alpha, Reject Null Hypothesis

Producción:

El diagrama de caja muestra los valores medios del engranaje con respecto al desplazamiento. Escuche que las variables categóricas son engranajes y am en las que se usa la función de factor y la variable continua es disp.

El resumen muestra que el atributo del arte es muy significativo para el desplazamiento (tres estrellas lo indican) y el atributo am no es muy significativo para el desplazamiento. El valor P del engranaje es inferior a 0,05, por lo que demuestra que el engranaje es importante para el desplazamiento, es decir, está relacionado entre sí. El valor P de am es mayor que 0,05, am no es significativo para el desplazamiento, es decir, no está relacionado entre sí.

Resultados

Vemos resultados significativos de diagramas de caja y resúmenes. 

  • El desplazamiento está fuertemente relacionado con las marchas en los automóviles, es decir, el desplazamiento depende de las marchas con p < 0,05.
  • El desplazamiento está fuertemente relacionado con los engranajes pero no con el modo de transmisión en automóviles con p 0.05 con am.

Publicación traducida automáticamente

Artículo escrito por dhruv5819 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *