¿Cómo crear un diagrama de dispersión con una línea de regresión en R?

Un diagrama de dispersión usa puntos para representar valores para dos variables numéricas diferentes. Los diagramas de dispersión se utilizan para observar las relaciones entre las variables. Una regresión lineal es una representación en línea recta de la relación entre una variable independiente y una dependiente. En este artículo, discutiremos cómo se puede dibujar un diagrama de dispersión con regresión lineal utilizando R y sus bibliotecas. 

Se puede usar un gráfico de dispersión para mostrar todos los resultados posibles y una regresión lineal trazada sobre él se puede usar para generalizar características comunes o para derivar puntos máximos que siguen un resultado. Aquí primero discutiremos el método de trazar un diagrama de dispersión y luego dibujaremos una regresión lineal sobre él.

Conjunto de datos utilizado: Salary_Data.xls

En R, la función utilizada para dibujar un gráfico de dispersión de dos variables es la función plot() que devolverá el gráfico de dispersión.

Sintaxis: plot(x, y, main, xlab, ylab, xlim, ylim, ejes)

Parámetros:-

  • x- es el conjunto de datos cuyos valores son las coordenadas horizontales.
  • y- es el conjunto de datos cuyos valores son las coordenadas verticales.
  • main- es el mosaico del gráfico.
  • xlab- es la etiqueta en el eje horizontal.
  • ylab- es la etiqueta en el eje vertical.
  • xlim- son los límites de los valores de x utilizados para trazar.
  • ylim- son los límites de los valores de y utilizados para trazar.
  • ejes: indica si ambos ejes deben dibujarse en el gráfico.

Devolver:-

Un diagrama de dispersión de 2 dimensiones.

Programa:

R

library(readxl)
  
# import data
Salary_Data <- read_excel("Salary_Data.xls")
  
# plot scatter plot
plot(Salary_Data$YearsExperience,Salary_Data$Salary,
     main='YearsExperience Vs Salary',
     xlab='YearsExperience', ylab='Salary')

Producción:

Una línea de regresión es una línea recta que describe cómo cambia una variable de respuesta y (variable dependiente) a medida que cambia una variable explicativa x (independiente). Esto se usa para predecir el valor de y para un valor dado de x.

Para dibujar la línea de regresión necesitamos dos funciones:

  • La función abline() se usa para agregar una o más líneas rectas a través de la trama actual

Sintaxis: abline(a=NULO, b=NULO, h=NULO, v=NULO, …)

Parámetros:
a, b: especifica la intersección y la pendiente de la línea
h: especifica el valor de y para las líneas horizontales
v: especifica el valor de x para las líneas verticales

Devoluciones: una línea recta en la trama

  • La función lm() , que significa modelo lineal, se puede usar para crear un modelo de regresión simple.

Sintaxis: lm(fórmula,datos)

Parámetros:

  • la fórmula- es un símbolo que presenta la relación entre x e y.
  • data- es el vector sobre el que se aplicará la fórmula.

Devoluciones:

La recta de relación de x e y.

Programa:

R

library(readxl)
  
# import data
Salary_Data <- read_excel("Salary_Data.xls")
  
# plot a scatter plot
plot(Salary_Data$YearsExperience,Salary_Data$Salary,
     main='Regression for YearsExperience and Salary',
     xlab='YearsExperience',ylab='Salary')
  
# plot a regression line
abline(lm(Salary~YearsExperience,data=Salary_Data),col='red')

Producción:

Publicación traducida automáticamente

Artículo escrito por geetansh044 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *