La correlación se refiere a la relación entre dos variables. Se refiere al grado de correlación lineal entre dos variables aleatorias cualesquiera. Esta relación se puede expresar como un rango de valores expresados dentro del intervalo [-1, 1]. El valor -1 indica una relación no lineal (negativa) perfecta, 1 es una relación lineal positiva perfecta y 0 es un intermedio entre la interdependencia lineal ni positiva ni negativa. Sin embargo, un valor de 0 no indica que las variables sean completamente independientes entre sí. Las arrays de correlación calculan el grado de relación lineal entre un conjunto de variables aleatorias, tomando un par a la vez y actuando para cada conjunto de pares dentro de los datos.
Propiedades de Arrays de Correlación
- Todos los elementos de la diagonal de la array de correlación deben ser 1 porque la correlación de una variable consigo misma es siempre perfecta, c ii =1.
- Debe ser simétrica c ij =c ji .
Cálculo de la array de correlación en R
En programación R , una array de correlación se puede completar utilizando la función cor() , que tiene la siguiente sintaxis:
Sintaxis: cor (x, use = , método = )
Parámetros:
x: Es una array numérica o un marco de datos.
uso: se ocupa de los datos que faltan.
- all.obs: este valor de parámetro asume que el marco de datos no tiene valores faltantes y arroja un error en caso de violación.
- complete.obs: eliminación por lista.
- pairwise.complete.obs: borrado por parejas.
Método: Se trata de un tipo de relación. Se puede utilizar Pearson , Spearman o Kendall para el cálculo. El método predeterminado utilizado es Pearson.
Correlación en lenguaje de programación R
La array de correlación se puede calcular en R después de cargar los datos. El siguiente fragmento de código indica el uso de la función cor() :
R
# loading dataset from the specified url # storing the data into csv data = read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv", header = TRUE, fileEncoding = "latin1") # printing the head of the data print ("Original Data") head(data) # computing correlation matrix cor_data = cor(data) print("Correlation matrix") print(cor_data)
Producción:
[1] "Original Data" Year Mileage..thousands. Price 1 1998 27 9991 2 1997 17 9925 3 1998 28 10491 4 1998 5 10990 5 1997 38 9493 6 1997 36 9991 [1] "Correlation matrix" Year Mileage..thousands. Price Year 1.0000000 -0.7480982 0.9343679 Mileage..thousands. -0.7480982 1.0000000 -0.8113807 Price 0.9343679 -0.8113807 1.0000000
Cálculo de coeficientes de correlación
R contiene una función incorporada rcorr() que genera los coeficientes de correlación y una tabla de valores p para todos los posibles pares de columnas de un marco de datos. Esta función básicamente calcula los niveles de significación para las correlaciones de Pearson y Spearman .
Sintaxis: rcorr (x, type = c(“pearson”, “spearman”))
Para ejecutar esta función en R, necesitamos descargar y cargar el paquete » Hmisc » en el entorno. Esto se puede hacer de la siguiente manera:
install.packages(“Hmisc”)
biblioteca («Hmisc»)
El siguiente fragmento de código indica el cálculo de los coeficientes de correlación en R:
R
data = read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv", header = TRUE, fileEncoding = "latin1") # printing the head of the data print("Original Data") head(data) # installing the library of Hmisc install.packages("Hmisc") library("Hmisc") # computing p values of the data loaded p_values <- rcorr(as.matrix(data)) print(p_values)
Producción:
[1] "Original Data" Year Mileage..thousands. Price 1 1998 27 9991 2 1997 17 9925 3 1998 28 10491 4 1998 5 10990 5 1997 38 9493 6 1997 36 9991 Year Mileage..thousands. Price Year 1.00 -0.75 0.93 Mileage..thousands. -0.75 1.00 -0.81 Price 0.93 -0.81 1.00 n= 23 P Year Mileage..thousands. Price Year 0 0 Mileage..thousands. 0 0 Price 0 0
Visualizar una array de correlación
En R, usaremos el paquete «corrplot» para implementar un correlograma. Por lo tanto, para instalar el paquete desde R Console debemos ejecutar el siguiente comando:
install.packages("corrplot")
Una vez que hayamos instalado el paquete correctamente, cargaremos el paquete en nuestro script R usando la función library() de la siguiente manera:
library("corrplot")
Usaremos la función corrplot() y mencionaremos la forma en los argumentos de su método.
R
# Correlogram in R # required packages library(corrplot) head(mtcars) # correlation matrix M<-cor(mtcars) head(round(M,2)) # visualizing correlogram # as circle corrplot(M, method="circle") # as pie corrplot(M, method="pie") # as colour corrplot(M, method="color") # as number corrplot(M, method="number")
Producción:
Publicación traducida automáticamente
Artículo escrito por yashchuahan y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA