Cómo calcular el valor P de una estadística F en R

La prueba F es una prueba estadística y produce la estadística F que posee una distribución F bajo la hipótesis nula. Este artículo se centra en cómo podemos calcular el valor P de una estadística F en el lenguaje de programación R.

Encontrar el valor P de una estadística F en R

R nos proporciona la función pf() mediante la cual podemos determinar el valor p asociado con la estadística F. La función tiene la siguiente sintaxis:

Sintaxis: pf(F_statistic, dataframe1, dataframe2, lower.tail = FALSE)

Parámetros:

  • F_statistic: Representa el valor del f-statistic
  • dataframe1: Representa los grados de libertad 1
  • dataframe2: Representa los grados de libertad 2
  • lower.tail = TRUE: Devuelve la probabilidad asociada con la cola inferior de la distribución F.
  • lower.tail = FALSE: No devuelve la probabilidad asociada con la cola inferior de la distribución F.

Ejemplo:

Considere un ejemplo de tener los siguientes parámetros:

  • fstat: 7
  • df1: 4
  • df2: 5
  • cola.inferior = FALSO

R

pf(7, 4, 5, lower.tail = FALSE)

Producción:

 

Por lo tanto, el valor p asociado con el estadístico F resulta ser igual a 0,027. La prueba F también se usa para probar la importancia general de un modelo de regresión.

Cálculo del valor p de la estadística F para un modelo de regresión

Considere que tenemos un conjunto de datos que muestra la distancia total recorrida, la emisión total generada, el kilometraje obtenido al final:

R

# Create a dataset
dataset <- data.frame(distance = c(112, 217, 92, 98, 104),
                   emission = c(4.5, 9.8, 12.1, 3.2, 7.6),
                   mileage = c(15, 12, 16, 19, 21))
  
# Display the dataset
dataset

Producción:

Ahora, podemos ajustar un modelo de regresión lineal a estos datos utilizando la distancia y el kilometraje como variables predictoras y el kilometraje como variable de respuesta. Para ajustar un modelo de regresión, R nos proporciona lm() mediante el cual podemos ajustar fácilmente el modelo de regresión lineal. Tiene la siguiente sintaxis:

Sintaxis: lm (fórmula, marco de datos)

Parámetros:

  • fórmula: Representa la fórmula para el modelo lineal.
  • dataframe: Representa un marco de datos que contiene los datos.

Para imprimir el resumen del modelo lineal, podemos usar la función summary(). Esta función tiene la siguiente sintaxis:

Sintaxis: resumen (modelo)

Parámetros: modelo: Representa un modelo

El código fuente completo se proporciona a continuación:

R

# Create a dataset
dataset <- data.frame(distance = c(112, 217, 92, 98, 104),
                   emission = c(4.5, 9.8, 12.1, 3.2, 7.6),
                   mileage = c(15, 12, 16, 19, 21))
  
# Fit a regression model
model <- lm(mileage ~ distance + emission, data = dataset)
  
# Display the output of the model
summary(model)

Producción:

El estadístico F para el modelo de regresión general resulta ser igual a 1,321. Este estadístico F tiene 2 grados de libertad tanto para el numerador como para el denominador. El valor p para esta estadística F es igual a 0,4309.

Podemos calcular este valor p equivalente con la ayuda del siguiente código:

R

# Compute the p-value
pf(1.321, 2, 2, lower.tail = FALSE)

Producción:

 

Como puede ver en la salida, obtuvimos un resultado casi similar.

Publicación traducida automáticamente

Artículo escrito por bhuwanesh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *