¿Cómo calcular la correlación entre múltiples variables en R?

En este artículo, discutiremos cómo calcular la correlación entre múltiples variables en el lenguaje de programación R. La correlación se utiliza para obtener la relación entre dos o más variables:

  • El resultado es 0 si no hay correlación entre dos variables
  • El resultado es 1 si hay una correlación positiva entre dos variables
  • El resultado es -1 si hay una correlación negativa entre dos variables

Vamos a crear un marco de datos inicial:

R

# create the dataframe with 4 columns
data=data.frame(col1=c(1:10),col2=c(11:20),
                col3=c(21:30),col4=c(1:10))
  
# display
data

Producción:

   col1 col2 col3 col4
1     1   11   21    1
2     2   12   22    2
3     3   13   23    3
4     4   14   24    4
5     5   15   25    5
6     6   16   26    6
7     7   17   27    7
8     8   18   28    8
9     9   19   29    9
10   10   20   30   10

Método 1: correlación entre dos variables

En este método para calcular la correlación entre dos variables, el usuario simplemente tiene que llamar a la función corr() desde la base R, pasada con los parámetros requeridos que serán el nombre de las variables cuya correlación se necesita calcular y además esto devolverá el detalle de la correlación entre las dos variables dadas en el lenguaje de programación R.

Sintaxis :

cor(marco de datos$columna1, marco de datos$columna1)

dónde,

  • dataframe es el dataframe de entrada
  • columna1 es la columna1 correlacionada con la columna2

Ejemplo:

Aquí, en este ejemplo, vamos a crear el marco de datos con 4 columnas con 10 filas y encontrar la correlación entre col1 y col2, la correlación entre col1 y col3, la correlación entre col1 y col4 y la correlación entre col3 y col4 usando cor() función en el lenguaje de programación R.

R

# create the dataframe with 4 columns
data=data.frame(col1=c(1:10),col2=c(11:20),
                col3=c(21:30),col4=c(1:10))
  
# correlation between col1 and col2
print(cor(data$col1,data$col2))
  
# correlation between col1 and col3
print(cor(data$col1,data$col3))
  
# correlation between col1 and col4
print(cor(data$col1,data$col4))
  
# correlation between col3 and col4
print(cor(data$col3,data$col4))

Producción:

1
1
1
1

Método 2: correlación entre múltiples variables

En este método, el usuario tiene que llamar a la función cor() y luego, dentro de esta función, el usuario tiene que pasar el nombre de las múltiples variables en forma de vector como su parámetro para obtener la correlación entre múltiples variables especificando múltiples nombres de columna. en el lenguaje de programación R.

Sintaxis :

cor(dataframe[, c('column1','column2',.,'column n')])

Ejemplo:

En este ejemplo, encontraremos la correlación entre el uso de la función cor() de col1, col3 y col2, col1, col4 y col2, y col2, col3 y col4 en el lenguaje de programación R. 

R

# create the dataframe with 4 columns
data=data.frame(col1=c(1:10),col2=c(11:20),
                col3=c(21:30),
                col4=c(1:5,34,56,32,23,45))
  
# correlation between col1,col3 and col2
print(cor(data[, c('col1','col3','col2')]))
  
# correlation between col1,col4 and col2
print(cor(data[, c('col1','col4','col2')]))
  
# correlation between col2,col3 and col4
print(cor(data[, c('col2','col3','col4')]))

Producción:

     col1 col3 col2
col1    1    1    1
col3    1    1    1
col2    1    1    1

         col1     col4     col2
col1 1.000000 0.787662 1.000000
col4 0.787662 1.000000 0.787662
col2 1.000000 0.787662 1.000000

         col2     col3     col4
col2 1.000000 1.000000 0.787662
col3 1.000000 1.000000 0.787662
col4 0.787662 0.787662 1.000000

Método 3: Correlación entre todas las variables

En este método para calcular la correlación entre todas las variables en el marco de datos dado, el usuario necesita llamar a la función cor() con el marco de datos completo pasado como su parámetro para obtener la correlación entre todas las variables del marco de datos dado en el Lenguaje de programación R.

Sintaxis:

cor(dataframe)

Ejemplo:

En este ejemplo, vamos a encontrar la correlación entre todas las columnas del marco de datos dado en el lenguaje de programación R.

R

# create the dataframe with 4 columns
data=data.frame(col1=c(1:10),col2=c(11:20),
                col3=c(21:30),
                col4=c(1:5,34,56,32,23,45))
  
# correlation in entire dataframe
print(cor(data))

Producción:

         col1     col2     col3     col4
col1 1.000000 1.000000 1.000000 0.787662
col2 1.000000 1.000000 1.000000 0.787662
col3 1.000000 1.000000 1.000000 0.787662
col4 0.787662 0.787662 0.787662 1.0000

Publicación traducida automáticamente

Artículo escrito por sireeshakanneganti112 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *