Prueba Chi-Cuadrado en R

La prueba de independencia chi-cuadrado evalúa si existe asociación entre las categorías de las dos variables. Hay básicamente dos tipos de variables aleatorias y producen dos tipos de datos: numéricos y categóricos. Las estadísticas de chi-cuadrado se utilizan para investigar si las distribuciones de variables categóricas difieren entre sí. La prueba de chi-cuadrado también es útil al comparar los recuentos o recuentos de respuestas categóricas entre dos (o más) grupos independientes.

En R , la función utilizada para realizar una prueba de chi-cuadrado es chisq.test().

Sintaxis:
chisq.test(datos)

Parámetros:
datos : datos es una tabla que contiene valores de conteo de las variables en la tabla.

Ejemplo
Tomaremos los datos de la encuesta en la MASSbiblioteca que representan los datos de una encuesta realizada a los estudiantes.

# load the MASS package
library(MASS)        
print(str(survey))

Producción:

'data.frame':    237 obs. of  12 variables:
 $ Sex   : Factor w/ 2 levels "Female","Male": 1 2 2 2 2 1 2 1 2 2 ...
 $ Wr.Hnd: num  18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...
 $ NW.Hnd: num  18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...
 $ W.Hnd : Factor w/ 2 levels "Left","Right": 2 1 2 2 2 2 2 2 2 2 ...
 $ Fold  : Factor w/ 3 levels "L on R","Neither",..: 3 3 1 3 2 1 1 3 3 3 ...
 $ Pulse : int  92 104 87 NA 35 64 83 74 72 90 ...
 $ Clap  : Factor w/ 3 levels "Left","Neither",..: 1 1 2 2 3 3 3 3 3 3 ...
 $ Exer  : Factor w/ 3 levels "Freq","None",..: 3 2 2 2 3 3 1 1 3 3 ...
 $ Smoke : Factor w/ 4 levels "Heavy","Never",..: 2 4 3 2 2 2 2 2 2 2 ...
 $ Height: num  173 178 NA 160 165 ...
 $ M.I   : Factor w/ 2 levels "Imperial","Metric": 2 1 NA 2 2 1 1 2 2 2 ...
 $ Age   : num  18.2 17.6 16.9 20.3 23.7 ...
NULL

El resultado anterior muestra que el conjunto de datos tiene muchas variables Factor que pueden considerarse variables categóricas. Para nuestro modelo, consideraremos las variables “ Exer ” y “ Smoke ”. La columna Smoke registra los hábitos de fumar de los estudiantes mientras que la columna Exer registra su nivel de ejercicio. Nuestro objetivo es probar la hipótesis de si el hábito de fumar de los estudiantes es independiente de su nivel de ejercicio a un nivel de significancia de .05.

# Create a data frame from the main data set.
stu_data = data.frame(survey$Smoke,survey$Exer)
  
# Create a contingency table with the needed variables.           
stu_data = table(survey$Smoke,survey$Exer) 
                  
print(stu_data)

Producción:

         Freq None Some
  Heavy    7    1    3
  Never   87   18   84
  Occas   12    3    4
  Regul    9    1    7

Y finalmente aplicamos la chisq.test()función a la tabla de contingencia stu_data.

# applying chisq.test() function
print(chisq.test(stu_data))

Producción:

       Pearson's Chi-squared test

data:  stu_data
X-squared = 5.4885, df = 6, p-value = 0.4828

Como el valor de p 0.4828 es mayor que el .05, concluimos que el hábito de fumar es independiente del nivel de ejercicio del estudiante y, por lo tanto, existe una correlación débil o nula entre las dos variables.

El código R completo se proporciona a continuación.

# R program to illustrate
# Chi-Square Test in R
  
library(MASS)
print(str(survey))
  
stu_data = data.frame(survey$Smoke,survey$Exer)           
stu_data = table(survey$Smoke,survey$Exer)                
print(stu_data)
  
print(chisq.test(stu_data))

Entonces, en resumen, se puede decir que es muy fácil realizar una prueba de Chi-cuadrado usando R. Se puede realizar esta tarea usando la chisq.test()función en R.

Publicación traducida automáticamente

Artículo escrito por misraaakash1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *