En este artículo, discutiremos cómo calcular la correlación entre múltiples variables en el lenguaje de programación R. La correlación se utiliza para obtener la relación entre dos o más variables:
- El resultado es 0 si no hay correlación entre dos variables
- El resultado es 1 si hay una correlación positiva entre dos variables
- El resultado es -1 si hay una correlación negativa entre dos variables
Vamos a crear un marco de datos inicial:
R
# create the dataframe with 4 columns data=data.frame(col1=c(1:10),col2=c(11:20), col3=c(21:30),col4=c(1:10)) # display data
Producción:
col1 col2 col3 col4 1 1 11 21 1 2 2 12 22 2 3 3 13 23 3 4 4 14 24 4 5 5 15 25 5 6 6 16 26 6 7 7 17 27 7 8 8 18 28 8 9 9 19 29 9 10 10 20 30 10
Método 1: correlación entre dos variables
En este método para calcular la correlación entre dos variables, el usuario simplemente tiene que llamar a la función corr() desde la base R, pasada con los parámetros requeridos que serán el nombre de las variables cuya correlación se necesita calcular y además esto devolverá el detalle de la correlación entre las dos variables dadas en el lenguaje de programación R.
Sintaxis :
cor(marco de datos$columna1, marco de datos$columna1)
dónde,
- dataframe es el dataframe de entrada
- columna1 es la columna1 correlacionada con la columna2
Ejemplo:
Aquí, en este ejemplo, vamos a crear el marco de datos con 4 columnas con 10 filas y encontrar la correlación entre col1 y col2, la correlación entre col1 y col3, la correlación entre col1 y col4 y la correlación entre col3 y col4 usando cor() función en el lenguaje de programación R.
R
# create the dataframe with 4 columns data=data.frame(col1=c(1:10),col2=c(11:20), col3=c(21:30),col4=c(1:10)) # correlation between col1 and col2 print(cor(data$col1,data$col2)) # correlation between col1 and col3 print(cor(data$col1,data$col3)) # correlation between col1 and col4 print(cor(data$col1,data$col4)) # correlation between col3 and col4 print(cor(data$col3,data$col4))
Producción:
1 1 1 1
Método 2: correlación entre múltiples variables
En este método, el usuario tiene que llamar a la función cor() y luego, dentro de esta función, el usuario tiene que pasar el nombre de las múltiples variables en forma de vector como su parámetro para obtener la correlación entre múltiples variables especificando múltiples nombres de columna. en el lenguaje de programación R.
Sintaxis :
cor(dataframe[, c('column1','column2',.,'column n')])
Ejemplo:
En este ejemplo, encontraremos la correlación entre el uso de la función cor() de col1, col3 y col2, col1, col4 y col2, y col2, col3 y col4 en el lenguaje de programación R.
R
# create the dataframe with 4 columns data=data.frame(col1=c(1:10),col2=c(11:20), col3=c(21:30), col4=c(1:5,34,56,32,23,45)) # correlation between col1,col3 and col2 print(cor(data[, c('col1','col3','col2')])) # correlation between col1,col4 and col2 print(cor(data[, c('col1','col4','col2')])) # correlation between col2,col3 and col4 print(cor(data[, c('col2','col3','col4')]))
Producción:
col1 col3 col2 col1 1 1 1 col3 1 1 1 col2 1 1 1 col1 col4 col2 col1 1.000000 0.787662 1.000000 col4 0.787662 1.000000 0.787662 col2 1.000000 0.787662 1.000000 col2 col3 col4 col2 1.000000 1.000000 0.787662 col3 1.000000 1.000000 0.787662 col4 0.787662 0.787662 1.000000
Método 3: Correlación entre todas las variables
En este método para calcular la correlación entre todas las variables en el marco de datos dado, el usuario necesita llamar a la función cor() con el marco de datos completo pasado como su parámetro para obtener la correlación entre todas las variables del marco de datos dado en el Lenguaje de programación R.
Sintaxis:
cor(dataframe)
Ejemplo:
En este ejemplo, vamos a encontrar la correlación entre todas las columnas del marco de datos dado en el lenguaje de programación R.
R
# create the dataframe with 4 columns data=data.frame(col1=c(1:10),col2=c(11:20), col3=c(21:30), col4=c(1:5,34,56,32,23,45)) # correlation in entire dataframe print(cor(data))
Producción:
col1 col2 col3 col4 col1 1.000000 1.000000 1.000000 0.787662 col2 1.000000 1.000000 1.000000 0.787662 col3 1.000000 1.000000 1.000000 0.787662 col4 0.787662 0.787662 0.787662 1.0000
Publicación traducida automáticamente
Artículo escrito por sireeshakanneganti112 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA