Análisis de regresión R-cuadrado en programación R

Para la predicción del valor de una variable (variable dependiente) a través de otras variables (variables independientes) se utilizan unos modelos que se denominan modelos de regresión. Para calcular aún más la precisión de esta predicción, se utiliza otra herramienta matemática, que es el análisis de regresión R-cuadrado o el coeficiente de determinación. El valor de R-cuadrado está entre 0 y 1. Y si el coeficiente de determinación es 1 (o 100%) significa que la predicción de la variable dependiente ha sido perfecta y precisa.

R-cuadrado es una comparación de la suma residual de cuadrados (SS res ) con la suma total de cuadrados (SS tot ). La suma residual de cuadrados se calcula sumando los cuadrados de la distancia perpendicular entre los puntos de datos y la línea de mejor ajuste.

best-fitted-model

La suma total de cuadrados se calcula sumando los cuadrados de la distancia perpendicular entre los puntos de datos y la línea promedio.

average-fitted-model1

Fórmula para el análisis de regresión R-cuadrado

La fórmula para el análisis de regresión R-cuadrado es la siguiente:

r^2 =  \frac{\sum  ( \widehat{y_i} -  \bar  y)^2}{\sum  (y_i - \bar  y )^2}

donde,
y_i: valores experimentales de la variable dependiente
\bar y: el promedio/media
\widehat{y_i}: el valor ajustado

Encuentre el coeficiente de determinación (R) en R

Es muy fácil encontrar el Coeficiente de Determinación (R) en el lenguaje R. Los pasos a seguir son:

  • Haz un marco de datos en R.
  • Calcule el modelo de regresión lineal y guárdelo en una nueva variable.
  • El resumen de la nueva variable así calculada tiene un coeficiente de determinación o parámetro R-cuadrado que es necesario extraer.
# Creating a data frame of exam marks
exam <- data.frame(name = c("ravi", "shaily", 
                            "arsh", "monu"),
                   math = c(87, 98, 67, 90),
                   estimated = c(65, 87, 56, 100))
  
# Printing data frame
exam
  
# Calculating the linear regression model
model = lm(math~estimated, data = exam)
  
# Extracting R-squared parameter from summary
summary(model)$r.squared

Producción:

    name   math   estimated
1   ravi   87        65
2 shaily   98        87
3   arsh   67        56
4   monu   90       100

[1] 0.5672797

Nota: si la predicción es precisa, el valor de regresión R-cuadrado generado es 1.

# Creating a data frame of exam marks
exam <- data.frame(name = c("ravi", "shaily",
                             "arsh", "monu"), 
                   math = c(87, 98, 67, 90),
                   estimated = c(87, 98, 67, 90))
  
# Printing data frame
exam
  
# Calculating the linear regression model
model = lm(math~estimated, data = exam)
  
# Extracting R-squared parameter from summary
summary(model)$r.squared

Producción:

    name   math   estimated
1   ravi   87        87
2 shaily   98        98
3   arsh   67        67
4   monu   90       90

[1] 1

Limitación del uso del método R-cuadrado

  • El valor de r-cuadrado siempre aumenta o permanece igual a medida que se agregan nuevas variables al modelo, sin detectar la importancia de esta variable recién agregada (es decir, el valor de r-cuadrado nunca disminuye con la adición de nuevos atributos al modelo). Como resultado, los atributos no significativos también se pueden agregar al modelo con un aumento en el valor de r-cuadrado.
  • Esto se debe a que SS tot siempre es constante y el modelo de regresión intenta disminuir el valor de SS res al encontrar alguna correlación con este nuevo atributo y, por lo tanto, el valor general de r-square aumenta, lo que puede conducir a un modelo de regresión deficiente.

Publicación traducida automáticamente

Artículo escrito por support3 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *