Para la predicción del valor de una variable (variable dependiente) a través de otras variables (variables independientes) se utilizan unos modelos que se denominan modelos de regresión. Para calcular aún más la precisión de esta predicción, se utiliza otra herramienta matemática, que es el análisis de regresión R-cuadrado o el coeficiente de determinación. El valor de R-cuadrado está entre 0 y 1. Y si el coeficiente de determinación es 1 (o 100%) significa que la predicción de la variable dependiente ha sido perfecta y precisa.
R-cuadrado es una comparación de la suma residual de cuadrados (SS res ) con la suma total de cuadrados (SS tot ). La suma residual de cuadrados se calcula sumando los cuadrados de la distancia perpendicular entre los puntos de datos y la línea de mejor ajuste.
La suma total de cuadrados se calcula sumando los cuadrados de la distancia perpendicular entre los puntos de datos y la línea promedio.
Fórmula para el análisis de regresión R-cuadrado
La fórmula para el análisis de regresión R-cuadrado es la siguiente:
donde,
: valores experimentales de la variable dependiente
: el promedio/media
: el valor ajustado
Encuentre el coeficiente de determinación (R) en R
Es muy fácil encontrar el Coeficiente de Determinación (R) en el lenguaje R. Los pasos a seguir son:
- Haz un marco de datos en R.
- Calcule el modelo de regresión lineal y guárdelo en una nueva variable.
- El resumen de la nueva variable así calculada tiene un coeficiente de determinación o parámetro R-cuadrado que es necesario extraer.
# Creating a data frame of exam marks exam <- data.frame(name = c("ravi", "shaily", "arsh", "monu"), math = c(87, 98, 67, 90), estimated = c(65, 87, 56, 100)) # Printing data frame exam # Calculating the linear regression model model = lm(math~estimated, data = exam) # Extracting R-squared parameter from summary summary(model)$r.squared
Producción:
name math estimated 1 ravi 87 65 2 shaily 98 87 3 arsh 67 56 4 monu 90 100 [1] 0.5672797
Nota: si la predicción es precisa, el valor de regresión R-cuadrado generado es 1.
# Creating a data frame of exam marks exam <- data.frame(name = c("ravi", "shaily", "arsh", "monu"), math = c(87, 98, 67, 90), estimated = c(87, 98, 67, 90)) # Printing data frame exam # Calculating the linear regression model model = lm(math~estimated, data = exam) # Extracting R-squared parameter from summary summary(model)$r.squared
Producción:
name math estimated 1 ravi 87 87 2 shaily 98 98 3 arsh 67 67 4 monu 90 90 [1] 1
Limitación del uso del método R-cuadrado
- El valor de r-cuadrado siempre aumenta o permanece igual a medida que se agregan nuevas variables al modelo, sin detectar la importancia de esta variable recién agregada (es decir, el valor de r-cuadrado nunca disminuye con la adición de nuevos atributos al modelo). Como resultado, los atributos no significativos también se pueden agregar al modelo con un aumento en el valor de r-cuadrado.
- Esto se debe a que SS tot siempre es constante y el modelo de regresión intenta disminuir el valor de SS res al encontrar alguna correlación con este nuevo atributo y, por lo tanto, el valor general de r-square aumenta, lo que puede conducir a un modelo de regresión deficiente.