Requisito previo : regresión lineal múltiple usando R
Un modelo de regresión bien ajustado produce valores pronosticados cercanos a los valores de datos observados. El modelo medio, que usa la media para cada valor predicho, se usaría comúnmente si no hubiera variables predictoras informativas. Por lo tanto, el ajuste de un modelo de regresión propuesto debería ser mejor que el ajuste del modelo medio. Las tres medidas estadísticas más comunes utilizadas para evaluar el ajuste del modelo de regresión son:
- Coeficiente de determinación (R 2 ) , R 2 ajustado
- Error cuadrático medio (RMSE)
- Prueba F general
Entonces, en este artículo, analicemos el coeficiente de determinación ajustado o el R 2 ajustado en la programación R. Al igual que el coeficiente de la determinación en sí, R 2 adj describe la varianza de la variable de respuesta y, que se puede predecir sobre la base de las variables de características independientes, x. Sin embargo, dos distinciones importantes:
- R 2 adj tiene en cuenta el número de variables en el conjunto de datos. Penaliza los puntos de datos que no se ajustan al modelo de regresión desarrollado.
- Una implicación de la declaración anterior sería que R 2 adj , a diferencia de R 2 , no aumenta continuamente con un aumento en las variables de característica (debido al cambio en su cálculo matemático) y no toma en consideración variables independientes que no afectan el variable característica. Esto protege el modelo contra el sobreajuste.
Por lo tanto, esta medida es más adecuada para modelos de regresión múltiple que R 2 , que solo funciona para el modelo de regresión lineal simple.
Fórmula matemática
dónde,
n : número de puntos de datos
k : número de variables excluyendo el resultado
R 2 : coeficiente de determinación
Ejemplo
Entrada: Un conjunto de datos de 20 registros de árboles con etiquetas de altura, circunferencia y volumen. La estructura del conjunto de datos se da a continuación.
Modelo 1: este modelo considera la altura y el volumen para predecir la circunferencia
Modelo 2: este modelo considera solo el volumen para predecir la circunferencia
Producción:
Model 1: R-squared: 0.9518, Adjusted R-squared: 0.9461 Model 2: R-squared: 0.9494, Adjusted R-squared: 0.9466
Explicación de los resultados: El modelo 1 considera la altura de la etiqueta como una variable que determina la circunferencia, lo que no siempre es cierto y, por lo tanto, considera una etiqueta irrelevante en el modelo. Los resultados de R-cuadrado sugieren que el Modelo 1 tiene un mejor ajuste, lo que evidentemente no es cierto. El R-cuadrado ajustado por métrica, que es mayor para el Modelo 2, mitiga esta anomalía.
Implementación en R
- Haz un marco de datos en R.
- Calcule el modelo de regresión lineal múltiple y guárdelo en una nueva variable.
- El resumen de la nueva variable así calculado tiene un coeficiente de determinación ajustado o parámetro R-cuadrado ajustado que necesita ser extraído.
Ejemplo:
R
# R program to illustrate # Adj Coefficient of determination # Creating a dataframe sample_data <- data.frame(col1 = c(10, 20, 30, 40, 50), col2 = c(1, 2, 3, 2, 2), col3 = c(10, 20, 30, 20, 25)) # multiple regression model # where col1, col2 are features sample_model <- lm(col3~col1 + col2, data = sample_data) # Extracting Adj R-squared parameter # from summary summary(sample_model)$adj.r.squared
Producción:
[1] 0.9318182
Publicación traducida automáticamente
Artículo escrito por sowmyaprasad y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA