Regresión lineal múltiple usando R

Prerrequisito: Regresión lineal simple usando R
Regresión lineal: 
Es el tipo básico y comúnmente utilizado para el análisis predictivo. Es un enfoque estadístico para modelar la relación entre una variable dependiente y un conjunto dado de variables independientes.
Estos son de dos tipos: 
 

  1. Regresión lineal simple
  2. Regresión lineal múltiple

Analicemos la regresión lineal múltiple usando R.
Regresión lineal múltiple: 
es la forma más común de regresión lineal. La regresión lineal múltiple básicamente describe cómo una única variable de respuesta Y depende linealmente de una serie de variables predictoras.
Los ejemplos básicos en los que se puede utilizar la regresión múltiple son los siguientes: 
 

  1. El precio de venta de una casa puede depender de la conveniencia de la ubicación, la cantidad de dormitorios, la cantidad de baños, el año en que se construyó la casa, los pies cuadrados del lote y una serie de otros factores.
  2. La altura de un niño puede depender de la altura de la madre, la altura del padre, la nutrición y los factores ambientales.

Estimación de los parámetros del modelo 
Considere un modelo de regresión lineal múltiple con k variable predictora independiente x1, x2……, xk y una variable de respuesta y. 
 

Supongamos que tenemos n observación sobre las k+1 variables y la variable de n debería ser mayor que k. 
 

El objetivo básico en la regresión de mínimos cuadrados es ajustar un hiperplano en un espacio dimensional (k + 1) que minimice la suma de los residuos cuadrados. 
 

Antes de tomar la derivada con respecto a los parámetros del modelo, igualarlos a cero y derivar las ecuaciones normales de mínimos cuadrados que los parámetros tendrían que cumplir. 
Estas ecuaciones se formulan con la ayuda de vectores y arrays. 
Dejar 
 

El modelo de regresión lineal se escribe en la forma siguiente: 
 

En regresión lineal, los parámetros de mínimos cuadrados estiman b 
 

Imagine que las columnas de X son fijas, son los datos para un problema específico y dicen que b es variable. Queremos encontrar el «mejor» b en el sentido de que la suma de los residuos al cuadrado se minimice. 
Lo más pequeño que puede ser la suma de cuadrados es cero. 
 

Aquí y es el vector de respuesta estimado.
El siguiente código R se usa para implementar la regresión lineal múltiple en el siguiente conjunto de datos data2 .
el conjunto de datos se ve así: 
 

R

# Multiple Linear Regression
 
# Importing the dataset
dataset = read.csv('data2.csv')
 
# Encoding categorical data
dataset$State = factor(dataset$State,
                       levels = c('New York', 'California', 'Florida'),
                       labels = c(1, 2, 3))
dataset$State

  
 

R

# Splitting the dataset into the Training set and Test set
# install.packages('caTools')
library(caTools)
set.seed(123)
split = sample.split(dataset$Profit, SplitRatio = 0.8)
training_set = subset(dataset, split == TRUE)
test_set = subset(dataset, split == FALSE)
 
# Feature Scaling
# training_set = scale(training_set)
# test_set = scale(test_set)
 
# Fitting Multiple Linear Regression to the Training set
regressor = lm(formula = Profit ~ .,
               data = training_set)
 
# Predicting the Test set results
y_pred = predict(regressor, newdata = test_set)

Producción: 
 

Publicación traducida automáticamente

Artículo escrito por Akashkumar17 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *