Chi-Square Statistic es un método para representar la relación entre dos variables categóricas. En estadística, las variables se clasifican en dos clases: variables numéricas y variables no numéricas (categóricas). La estadística de chi-cuadrado se usa para indicar cuánta diferencia existe entre el conteo observado y el conteo anticipado si no existe ninguna relación en la población. Cuando se realiza la prueba de chi-cuadrado, obtenemos estadísticas de prueba y, con la ayuda de la estadística de prueba, podemos encontrar el valor p sobre la base del cual podemos determinar si los resultados de la prueba son estadísticamente significativos.
R nos proporciona la función pchisq() mediante la cual podemos encontrar el valor p de una estadística Chi-Square. La sintaxis de esta función se da a continuación:
Sintaxis:
pchisq(q = “valor”, df = “valor”, inferior.cola = VERDADERO)
Parámetros:
- q: Representa el estadístico de prueba Chi-Cuadrado
- df: Representa los grados de libertad
- lower.tail = “TRUE”: Se devuelve la probabilidad a la izquierda de q en la distribución Chi-Square.
- lower.tail = “FALSE”: Se devuelve la probabilidad a la derecha de q en la distribución Chi-Cuadrado.
Tenga en cuenta que, por defecto, lower.tail es TRUE.
Método 1: prueba de bondad de ajuste chi-cuadrado
El dueño de una tienda de peluquería propuso que un número igual de clientes visitara su tienda los fines de semana y entre semana. Para examinar esta hipótesis, los investigadores rastrearon el número de clientes que visitaban su tienda durante una semana. Encuentran la siguiente información:
Día laborable | Número de clientes que visitan |
---|---|
Lunes | 8 |
martes | 6 |
miércoles | 10 |
jueves | 12 |
Viernes | 13 |
sábado | 6 |
Domingo | 15 |
Paso 1: Hipótesis:
Ahora realizaremos la prueba de bondad de ajuste Chi-Cuadrado que utiliza las siguientes hipótesis:
- H0: Un número igual de clientes entran a la tienda del salón cada día.
- H1: Un número igual de clientes no acuden a la tienda del salón todos los días.
Paso 2: Calcular el valor de (OE) 2 / E para cada día.
En total, 70 clientes visitaron la tienda del salón durante la semana. Por lo tanto, si consideramos que el mismo número de personas visitó su tienda cada día, entonces el valor esperado «E» (para cada día) resulta ser igual a 10.
Día laborable | Número de clientes que visitan |
---|---|
Lunes | (8 – 10) 2 / 10 = 0,4 |
martes | (6 – 10) 2 / 10 = 1,6 |
miércoles | (10 – 10) 2 / 10 = 0 |
jueves | (12 – 10) 2 / 10 = 0,4 |
Viernes | (13 – 10) 2 / 10 = 0,9 |
sábado | (6 – 10) 2 / 10 = 1,6 |
Domingo | (15 – 10) 2 / 10 = 2,5 |
Paso 3: Calcular el estadístico de prueba X 2 .
X2 = Σ(O – E) 2 / E = 0,4 + 1,6 + 0 + 0,4 + 0,9 + 1,6 + 2,5 = 7,4
Paso 4: Calcular el valor p del estadístico de prueba X 2 .
Ahora calculemos el valor p del estadístico de prueba. El q es igual a 7.4 y df es igual a 6.
Ejemplo:
R
# Determine the p-value for the Chi-Square test statistic pchisq(q=7.4, df=6, lower.tail=FALSE)
Producción:
Por lo tanto, el valor p asociado con X 2 = 7,4 y n-1 = 7-1 = 6 grados de libertad es 0,28543311.
El valor p resulta ser igual a 0,28. Dado que este valor no es inferior a 0,05. Por lo tanto, no podríamos rechazar la hipótesis nula. Esto implica que no tenemos pruebas suficientes para afirmar que la distribución real de los clientes difiere de la distribución propuesta por el dueño de la tienda.
Método 2: Prueba Chi-Cuadrado de Independencia
Consideremos un ejemplo en el que los investigadores están interesados en saber si la preferencia de un grupo de edad en particular está asociada con los productos de jabón. Dos grupos de edad están presentes en la población:
- Menores de 18 años.
- Igual o mayor de 18 años.
Se tomó una muestra aleatoria de 100 ciudadanos y se realizó una encuesta sobre su preferencia por el producto de jabón. Se realizó la prueba Chi-Cuadrado de Independencia y se extrajo la siguiente información:
- Estadística de prueba de chi-cuadrado (X 2 ): 0.64521
- Grados de libertad: (df): 2
Ahora determinaremos el valor p asociado con esta estadística de prueba Chi-Square y los grados de libertad.
R
# Determine p-value for the Chi-Square # test statistic pchisq(q=0.64521, df=2, lower.tail=FALSE)
Producción:
El valor p resulta ser igual a 0.72425. Dado que el valor p es mayor que 0,05, no podemos seguir la hipótesis nula. Esto implica que no tenemos pruebas suficientes para decir que existe un vínculo entre el grupo de edad y la preferencia del producto de jabón.