La prueba de independencia chi-cuadrado evalúa si existe asociación entre las categorías de las dos variables. Hay básicamente dos tipos de variables aleatorias y producen dos tipos de datos: numéricos y categóricos. Las estadísticas de chi-cuadrado se utilizan para investigar si las distribuciones de variables categóricas difieren entre sí. La prueba de chi-cuadrado también es útil al comparar los recuentos o recuentos de respuestas categóricas entre dos (o más) grupos independientes.
En R , la función utilizada para realizar una prueba de chi-cuadrado es chisq.test()
.
Sintaxis:
chisq.test(datos)Parámetros:
datos : datos es una tabla que contiene valores de conteo de las variables en la tabla.
Ejemplo
Tomaremos los datos de la encuesta en la MASS
biblioteca que representan los datos de una encuesta realizada a los estudiantes.
# load the MASS package library(MASS) print(str(survey))
Producción:
'data.frame': 237 obs. of 12 variables: $ Sex : Factor w/ 2 levels "Female","Male": 1 2 2 2 2 1 2 1 2 2 ... $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ... $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ... $ W.Hnd : Factor w/ 2 levels "Left","Right": 2 1 2 2 2 2 2 2 2 2 ... $ Fold : Factor w/ 3 levels "L on R","Neither",..: 3 3 1 3 2 1 1 3 3 3 ... $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ... $ Clap : Factor w/ 3 levels "Left","Neither",..: 1 1 2 2 3 3 3 3 3 3 ... $ Exer : Factor w/ 3 levels "Freq","None",..: 3 2 2 2 3 3 1 1 3 3 ... $ Smoke : Factor w/ 4 levels "Heavy","Never",..: 2 4 3 2 2 2 2 2 2 2 ... $ Height: num 173 178 NA 160 165 ... $ M.I : Factor w/ 2 levels "Imperial","Metric": 2 1 NA 2 2 1 1 2 2 2 ... $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL
El resultado anterior muestra que el conjunto de datos tiene muchas variables Factor que pueden considerarse variables categóricas. Para nuestro modelo, consideraremos las variables “ Exer ” y “ Smoke ”. La columna Smoke registra los hábitos de fumar de los estudiantes mientras que la columna Exer registra su nivel de ejercicio. Nuestro objetivo es probar la hipótesis de si el hábito de fumar de los estudiantes es independiente de su nivel de ejercicio a un nivel de significancia de .05.
# Create a data frame from the main data set. stu_data = data.frame(survey$Smoke,survey$Exer) # Create a contingency table with the needed variables. stu_data = table(survey$Smoke,survey$Exer) print(stu_data)
Producción:
Freq None Some Heavy 7 1 3 Never 87 18 84 Occas 12 3 4 Regul 9 1 7
Y finalmente aplicamos la chisq.test()
función a la tabla de contingencia stu_data.
# applying chisq.test() function print(chisq.test(stu_data))
Producción:
Pearson's Chi-squared test data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828
Como el valor de p 0.4828 es mayor que el .05, concluimos que el hábito de fumar es independiente del nivel de ejercicio del estudiante y, por lo tanto, existe una correlación débil o nula entre las dos variables.
El código R completo se proporciona a continuación.
# R program to illustrate # Chi-Square Test in R library(MASS) print(str(survey)) stu_data = data.frame(survey$Smoke,survey$Exer) stu_data = table(survey$Smoke,survey$Exer) print(stu_data) print(chisq.test(stu_data))
Entonces, en resumen, se puede decir que es muy fácil realizar una prueba de Chi-cuadrado usando R. Se puede realizar esta tarea usando la chisq.test()
función en R.
Publicación traducida automáticamente
Artículo escrito por misraaakash1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA