Coeficiente de Determinación Ajustado en Programación R

Requisito previo : regresión lineal múltiple usando R

Un modelo de regresión bien ajustado produce valores pronosticados cercanos a los valores de datos observados. El modelo medio, que usa la media para cada valor predicho, se usaría comúnmente si no hubiera variables predictoras informativas. Por lo tanto, el ajuste de un modelo de regresión propuesto debería ser mejor que el ajuste del modelo medio. Las tres medidas estadísticas más comunes utilizadas para evaluar el ajuste del modelo de regresión son:

  1. Coeficiente de determinación (R 2 ) , R ajustado
  2. Error cuadrático medio (RMSE)
  3. Prueba F general

Entonces, en este artículo, analicemos el coeficiente de determinación ajustado o el R 2 ajustado en la programación R. Al igual que el coeficiente de la determinación en sí, R 2 adj describe la varianza de la variable de respuesta y, que se puede predecir sobre la base de las variables de características independientes, x. Sin embargo, dos distinciones importantes:

  1. R 2 adj   tiene en cuenta el número de variables en el conjunto de datos. Penaliza los puntos de datos que no se ajustan al modelo de regresión desarrollado.
  2. Una implicación de la declaración anterior sería que R 2 adj , a diferencia de R 2 , no aumenta continuamente con un aumento en las variables de característica (debido al cambio en su cálculo matemático) y no toma en consideración variables independientes que no afectan el variable característica. Esto protege el modelo contra el sobreajuste.

Por lo tanto, esta medida es más adecuada para modelos de regresión múltiple que R 2 , que solo funciona para el modelo de regresión lineal simple.

Fórmula matemática

R^2_{adj} = 1-[(1-R^2)(n-1)/(n-k-1)]

dónde,

n : número de puntos de datos

k : número de variables excluyendo el resultado

R 2 : coeficiente de determinación

Ejemplo

Entrada: Un conjunto de datos de 20 registros de árboles con etiquetas de altura, circunferencia y volumen. La estructura del conjunto de datos se da a continuación.

Structure of Data set

Modelo 1: este modelo considera la altura y el volumen para predecir la circunferencia

Modelo 2: este modelo considera solo el volumen para predecir la circunferencia

Producción:

Model 1: R-squared:  0.9518,    Adjusted R-squared:  0.9461 
Model 2: R-squared:  0.9494,    Adjusted R-squared:  0.9466 

Explicación de los resultados: El modelo 1 considera la altura de la etiqueta como una variable que determina la circunferencia, lo que no siempre es cierto y, por lo tanto, considera una etiqueta irrelevante en el modelo. Los resultados de R-cuadrado sugieren que el Modelo 1 tiene un mejor ajuste, lo que evidentemente no es cierto. El R-cuadrado ajustado por métrica, que es mayor para el Modelo 2, mitiga esta anomalía.

Implementación en R

lenguaje R

  • Haz un marco de datos en R.
  • Calcule el modelo de regresión lineal múltiple y guárdelo en una nueva variable.
  • El resumen de la nueva variable así calculado tiene un coeficiente de determinación ajustado o parámetro R-cuadrado ajustado que necesita ser extraído.

Ejemplo:

R

# R program to illustrate
# Adj Coefficient of determination
  
# Creating a dataframe
sample_data <- data.frame(col1 = c(10, 20, 30, 40, 50),
                          col2 = c(1, 2, 3, 2, 2),
                          col3 = c(10, 20, 30, 20, 25))
  
# multiple regression model 
# where col1, col2 are features
sample_model <- lm(col3~col1 + col2, 
                   data = sample_data)
  
# Extracting Adj R-squared parameter 
# from summary 
summary(sample_model)$adj.r.squared

Producción:

[1] 0.9318182

Publicación traducida automáticamente

Artículo escrito por sowmyaprasad y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *