Array de Correlación en Programación R

La correlación se refiere a la relación entre dos variables. Se refiere al grado de correlación lineal entre dos variables aleatorias cualesquiera. Esta relación se puede expresar como un rango de valores expresados ​​dentro del intervalo [-1, 1]. El valor -1 indica una relación no lineal (negativa) perfecta, 1 es una relación lineal positiva perfecta y 0 es un intermedio entre la interdependencia lineal ni positiva ni negativa. Sin embargo, un valor de 0 no indica que las variables sean completamente independientes entre sí. Las arrays de correlación calculan el grado de relación lineal entre un conjunto de variables aleatorias, tomando un par a la vez y actuando para cada conjunto de pares dentro de los datos.

Propiedades de Arrays de Correlación

  • Todos los elementos de la diagonal de la array de correlación deben ser 1 porque la correlación de una variable consigo misma es siempre perfecta, c ii =1.
  • Debe ser simétrica c ij =c ji .

Cálculo de la array de correlación en R

En programación R , una array de correlación se puede completar utilizando la función cor() , que tiene la siguiente sintaxis:

 Sintaxis: cor (x, use = , método = )

Parámetros:

x: Es una array numérica o un marco de datos.
uso: se ocupa de los datos que faltan.

  • all.obs: este valor de parámetro asume que el marco de datos no tiene valores faltantes y arroja un error en caso de violación.
  • complete.obs: eliminación por lista.
  • pairwise.complete.obs: borrado por parejas.

Método: Se trata de un tipo de relación. Se puede utilizar Pearson , Spearman o Kendall para el cálculo. El método predeterminado utilizado es Pearson. 

Correlación en lenguaje de programación R

La array de correlación se puede calcular en R después de cargar los datos. El siguiente fragmento de código indica el uso de la función cor()

R

# loading dataset from the specified url
# storing the data into csv
data = read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv",
                header = TRUE, fileEncoding = "latin1")
 
# printing the head of the data
print ("Original Data")
head(data)
 
# computing correlation matrix
cor_data = cor(data)
 
print("Correlation matrix")
print(cor_data)

 Producción:

[1] "Original Data"
  Year Mileage..thousands. Price
1 1998                  27  9991
2 1997                  17  9925
3 1998                  28 10491
4 1998                   5 10990
5 1997                  38  9493
6 1997                  36  9991

[1] "Correlation matrix"
                         Year Mileage..thousands.      Price
Year                 1.0000000          -0.7480982  0.9343679
Mileage..thousands. -0.7480982           1.0000000 -0.8113807
Price                0.9343679          -0.8113807  1.0000000

Cálculo de coeficientes de correlación

R contiene una función incorporada rcorr() que genera los coeficientes de correlación y una tabla de valores p para todos los posibles pares de columnas de un marco de datos. Esta función básicamente calcula los niveles de significación para las correlaciones de Pearson y Spearman .

Sintaxis: rcorr (x, type = c(“pearson”, “spearman”))

Para ejecutar esta función en R, necesitamos descargar y cargar el paquete » Hmisc » en el entorno. Esto se puede hacer de la siguiente manera: 

install.packages(“Hmisc”) 

biblioteca («Hmisc»)

El siguiente fragmento de código indica el cálculo de los coeficientes de correlación en R:

R

data = read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv",
                header = TRUE, fileEncoding = "latin1")
 
# printing the head of the data
print("Original Data")
head(data)
 
# installing the library of Hmisc
install.packages("Hmisc")
library("Hmisc")
 
# computing p values of the data loaded
p_values <- rcorr(as.matrix(data))
print(p_values)

 Producción:

[1] "Original Data"
Year Mileage..thousands. Price
1 1998                  27  9991
2 1997                  17  9925
3 1998                  28 10491
4 1998                   5 10990
5 1997                  38  9493
6 1997                  36  9991

Year Mileage..thousands. Price
Year                 1.00               -0.75  0.93
Mileage..thousands. -0.75                1.00 -0.81
Price                0.93               -0.81  1.00

n= 23 


P
                    Year Mileage..thousands. Price
Year                      0                   0   
Mileage..thousands.  0                        0   
Price                0    0                       

Visualizar una array de correlación

En R, usaremos el paquete «corrplot» para implementar un correlograma. Por lo tanto, para instalar el paquete desde R Console debemos ejecutar el siguiente comando:

install.packages("corrplot")

Una vez que hayamos instalado el paquete correctamente, cargaremos el paquete en nuestro script R usando la función library() de la siguiente manera:  

library("corrplot")

Usaremos la función corrplot() y mencionaremos la forma en los argumentos de su método.

R

# Correlogram in R
# required packages
library(corrplot)
 
head(mtcars)
# correlation matrix
M<-cor(mtcars)
head(round(M,2))
 
# visualizing correlogram
# as circle
corrplot(M, method="circle")
 
# as pie
corrplot(M, method="pie")
 
# as colour
corrplot(M, method="color")
 
# as number
corrplot(M, method="number")

Producción:

Publicación traducida automáticamente

Artículo escrito por yashchuahan y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *