La prueba F es una prueba estadística y produce la estadística F que posee una distribución F bajo la hipótesis nula. Este artículo se centra en cómo podemos calcular el valor P de una estadística F en el lenguaje de programación R.
Encontrar el valor P de una estadística F en R
R nos proporciona la función pf() mediante la cual podemos determinar el valor p asociado con la estadística F. La función tiene la siguiente sintaxis:
Sintaxis: pf(F_statistic, dataframe1, dataframe2, lower.tail = FALSE)
Parámetros:
- F_statistic: Representa el valor del f-statistic
- dataframe1: Representa los grados de libertad 1
- dataframe2: Representa los grados de libertad 2
- lower.tail = TRUE: Devuelve la probabilidad asociada con la cola inferior de la distribución F.
- lower.tail = FALSE: No devuelve la probabilidad asociada con la cola inferior de la distribución F.
Ejemplo:
Considere un ejemplo de tener los siguientes parámetros:
- fstat: 7
- df1: 4
- df2: 5
- cola.inferior = FALSO
R
pf(7, 4, 5, lower.tail = FALSE)
Producción:
Por lo tanto, el valor p asociado con el estadístico F resulta ser igual a 0,027. La prueba F también se usa para probar la importancia general de un modelo de regresión.
Cálculo del valor p de la estadística F para un modelo de regresión
Considere que tenemos un conjunto de datos que muestra la distancia total recorrida, la emisión total generada, el kilometraje obtenido al final:
R
# Create a dataset dataset <- data.frame(distance = c(112, 217, 92, 98, 104), emission = c(4.5, 9.8, 12.1, 3.2, 7.6), mileage = c(15, 12, 16, 19, 21)) # Display the dataset dataset
Producción:
Ahora, podemos ajustar un modelo de regresión lineal a estos datos utilizando la distancia y el kilometraje como variables predictoras y el kilometraje como variable de respuesta. Para ajustar un modelo de regresión, R nos proporciona lm() mediante el cual podemos ajustar fácilmente el modelo de regresión lineal. Tiene la siguiente sintaxis:
Sintaxis: lm (fórmula, marco de datos)
Parámetros:
- fórmula: Representa la fórmula para el modelo lineal.
- dataframe: Representa un marco de datos que contiene los datos.
Para imprimir el resumen del modelo lineal, podemos usar la función summary(). Esta función tiene la siguiente sintaxis:
Sintaxis: resumen (modelo)
Parámetros: modelo: Representa un modelo
El código fuente completo se proporciona a continuación:
R
# Create a dataset dataset <- data.frame(distance = c(112, 217, 92, 98, 104), emission = c(4.5, 9.8, 12.1, 3.2, 7.6), mileage = c(15, 12, 16, 19, 21)) # Fit a regression model model <- lm(mileage ~ distance + emission, data = dataset) # Display the output of the model summary(model)
Producción:
El estadístico F para el modelo de regresión general resulta ser igual a 1,321. Este estadístico F tiene 2 grados de libertad tanto para el numerador como para el denominador. El valor p para esta estadística F es igual a 0,4309.
Podemos calcular este valor p equivalente con la ayuda del siguiente código:
R
# Compute the p-value pf(1.321, 2, 2, lower.tail = FALSE)
Producción:
Como puede ver en la salida, obtuvimos un resultado casi similar.