Visualización de una array de correlación usando ggplot2 en R

En este artículo, discutiremos cómo visualizar una array de correlación utilizando el paquete ggplot2 en el lenguaje de programación R.

Para ello instalaremos un paquete llamado ggcorrplot package. Con la ayuda de este paquete, podemos visualizar fácilmente una array de correlación. También podemos calcular una array de valores p de correlación usando una función que está presente en este paquete. corr_pmat () se usa para calcular la array de correlación de valores p y ggcorrplot() se usa para mostrar la array de correlación usando ggplot.

Sintaxis: 

corr_pmat(x,..)

Donde x es el marco de datos o la array

Sintaxis:

ggcorrplot(corr, método = c(“círculo”, “cuadrado”), tipo = c(“completo”, “inferior”, “superior”), título = “”, ggtheme=ggplot2::theme_minimal, show.legend = VERDADERO, leyenda.título = “corr”, show.diag = FALSO, colores = c(“azul”, “blanco”, “rojo”), contorno.color = “gris”, hc.order = FALSO, hc.método = “completo”, lab = FALSO, lab_col =”black”, p.mat = NULL,.. )

Empezando

Primero instalaremos y cargaremos el paquete ggcorrplot y ggplot2 usando install.packages() para instalar y library() para cargar el paquete. Necesitamos un conjunto de datos para construir nuestra array de correlación y luego visualizarla. Crearemos nuestra array de correlación con la ayuda de la función cor() , que calcula el coeficiente de correlación. Después de calcular la array de correlación, calcularemos la array de valores p de correlación usando la función corr_pmat() . A continuación, visualizaremos la array de correlación con la ayuda de la función ggcorrplot() usando ggplot2.

Creación de una array de correlación

Tomaremos un conjunto de datos de muestra para explicar mejor nuestro enfoque. Tomaremos el conjunto de datos incorporado de USArrests y visualizaremos su array de correlación siguiendo el enfoque anterior. Leeremos los datos usando la función data() y crearemos la array de correlación con la ayuda de la función cor() para calcular el coeficiente de correlación. La función round() se usa para redondear los valores a un valor decimal específico. Usaremos la función cor_pmat() para calcular la array de correlación con valores p.

Sintaxis: 

array_correlación <- round(cor(datos),1)

Parámetros: 

  • correlación_matrix : Variable para la array de correlación utilizada para visualizar.
  • data : data es nuestro conjunto de datos que hemos tomado para la visualización. 

Sintaxis:

corrp.mat <- cor_pmat(datos)

Parámetros:

  • corrp.mat : Variable para array de correlación con valores p.
  • datos: es nuestro conjunto de datos tomado para crear una array de correlación con valores p.

Ejemplo: creación de una array de correlación

R

# Installing and loading the ggcorrplot package
install.packages("ggcorrplot")
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
head(correlation_matrix[, 1:4])
  
# Computing correlation matrix with p-values
corrp.mat <- cor_pmat(USArrests)
  
head(corrp.mat[, 1:4])

Producción :

Visualización de la array de correlación

Ahora que tenemos una array de correlación y la array de correlación con valores p, ahora intentaremos visualizar esta array de correlación. La primera visualización es usar la función ggcorrplot() y trazar nuestra array de correlación en forma de método de cuadrado y círculo.

Sintaxis:

ggcorrplot(correlation_matrix, method= c(“círculo”,”cuadrado”))

Parámetros: 

  • correlación_matrix : La array de correlación para la visualización.
  • method : Es un valor de carácter utilizado para los métodos de visualización.

Ejemplo: visualización de la array de correlación utilizando diferentes métodos 

R

library(ggplot2)
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
# Computing correlation matrix with p-values
corrp.mat <- cor_pmat(USArrests)
  
# Visualizing the correlation matrix using 
# square and circle methods
ggcorrplot(correlation_matrix, method ="square")
ggcorrplot(correlation_matrix, method ="circle")

Producción :

Array de correlación con método circular

Array de correlación con método del cuadrado

Visualización de la array de correlación usando diferentes diseños 

  • A continuación, visualizaremos los tipos de diseño del correlograma en nuestra array de correlación y proporcionaremos hc.order y type como lower para el diseño del triángulo inferior y upper para el diseño del triángulo superior como parámetros en la función ggcorrplot().

Sintaxis: ggcorrplot(correlation_matrix, hc.order = TRUE, type = c(“superior”, “inferior”), contorno.color = “blanco”)

Parámetros:

  • correlación_matrix : La array de correlación utilizada para la visualización.
  • hc.order : Si es cierto, entonces se ordenará la array de correlación.
  • type : Es la disposición del carácter a mostrar.
  • contorno.color : Es el color del contorno del cuadrado o círculo.

Ejemplo: visualización de la array de correlación utilizando diferentes diseños

R

library(ggplot2)
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
# Computing correlation matrix with p-values
corrp.mat <- cor_pmat(USArrests)
  
# Visualizing upper and lower triangle layouts
ggcorrplot(correlation_matrix, hc.order =TRUE, type ="lower", 
           outline.color ="white")
  
ggcorrplot(correlation_matrix, hc.order =TRUE, type ="upper", 
           outline.color ="white")

Producción :

Array de correlación con diseño superior

Array de correlación con diseño inferior

Reordenando la array de correlación 

Ahora visualizaremos nuestra array de correlación reordenando la array usando agrupamiento jerárquico. Haremos esto usando la función ggcorrplot con array de correlación, hc.order, outline.color como argumentos.

Sintaxis: 

ggcorrplot(correlation_matrix, hc.order = TRUE, contorno.color = “blanco”)

Parámetros:

  • correlación_matrix : La array de correlación utilizada para la visualización.
  • hc.order : Si es cierto, entonces se ordenará la array de correlación.
  • contorno.color : Es el color del contorno del cuadrado o círculo.

Ejemplo: Reordenación de la array de correlación 

R

library(ggplot2)
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
# Computing correlation matrix with 
# p-values
corrp.mat <- cor_pmat(USArrests)
  
# Visualizing and reordering correlation
# matrix
ggcorrplot(correlation_matrix, hc.order =TRUE,
           outline.color ="white")

Producción :

Introduciendo el coeficiente de correlación 

Ahora visualizaremos nuestra array de correlación agregando el coeficiente de correlación usando la función ggcorrplot y proporcionando array de correlación, hc.order, type y variables inferiores como argumentos.

Sintaxis: 

ggcorrplot(correlation_matrix, hc.order = TRUE, type = «inferior», lab = TRUE)

Parámetros:

  • correlación_matrix : La array de correlación utilizada para la visualización.
  • hc.order : Si es cierto, entonces se ordenará la array de correlación.
  • type : Es la disposición del carácter a mostrar.
  • lab : Es un valor lógico. Si es cierto, sumamos el coeficiente de correlación a nuestra array.

Ejemplo: Introducción del coeficiente de correlación

R

library(ggplot2)
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
# Computing correlation matrix with p-values
corrp.mat <- cor_pmat(USArrests)
  
# Adding the correlation coefficient
ggcorrplot(correlation_matrix, hc.order =TRUE, 
           type ="lower", lab =TRUE)

Producción :

Adición de nivel de significancia 

Básicamente, el nivel de significación se denota por alfa. Comparamos el nivel de significación con los valores de p para verificar si la correlación entre las variables es significativa o no. Si el valor p es menor que alfa, entonces la correlación es significativa, de lo contrario, no significativa.

Visualizaremos nuestra array de correlación agregando un nivel de significancia sin tomar ningún coeficiente significativo. Haremos esto usando la función ggcorrplot y tomando argumentos como nuestra array de correlación, hc.order, type y nuestra array de correlación con valores p.

Sintaxis: 

ggcorrplot(correlation_matrix, hc.order=TRUE, type=”lower”, p.mat=corrp.mat)

Parámetros:

  • correlación_matrix : Nuestra array de correlación para visualizar.
  • hc.order : Si su valor es verdadero, entonces se ordenará la array de correlación.
  • type : Es la disposición del carácter a mostrar.
  • p.mat : Array de correlación con valores p.

Ejemplo: Adición del nivel de significancia del coeficiente 

R

library(ggplot2)
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
# Computing correlation matrix with p-values
corrp.mat <- cor_pmat(USArrests)
  
# Adding correlation significance level
ggcorrplot(correlation_matrix, hc.order =TRUE, type ="lower", 
           p.mat = corrp.mat)

Producción :

Dejar en blanco sin nivel de significancia

Ahora visualizaremos nuestra array de correlación dejando un espacio en blanco donde no hay nivel de significancia. En el ejemplo anterior, agregamos un nivel de significación a nuestra array de correlación. Aquí, eliminaremos aquellas partes de la array de correlación donde no encontramos ningún nivel de significancia.

Haremos esto usando la función ggcorrplot y tomaremos argumentos como nuestra array de correlación, array de correlación con valores p, hc.order, type e insig.

Sintaxis: 

ggcorrplot(correlation_matrix, hc.order=TRUE, p.mat=corrp.mat, type=”inferior”, insig=”en blanco”)

Parámetros:

correlación_matrix : Nuestra array de correlación para visualizar.

  • hc.order : Si es cierto, entonces se ordenará la array de correlación.  
  • p.mat : Array de correlación con valores p.
  • type : Es la disposición del carácter a mostrar.
  • insig : Es un carácter que en su mayoría contiene coeficientes de correlación insignificantes. El valor es «pch» por defecto. Si se proporciona en blanco, borra los glifos correspondientes.

Ejemplo: dejar en blanco sin nivel de significación

R

library(ggplot2)
library(ggcorrplot)
  
# Reading the data
data(USArrests)
  
# Computing correlation matrix
correlation_matrix <- round(cor(USArrests),1)
  
# Computing correlation matrix with p-values
corrp.mat <- cor_pmat(USArrests)
  
# Leaving blank on no significance level
ggcorrplot(correlation_matrix, hc.order =TRUE, 
           type ="lower", p.mat = corrp.mat, insig="blank")

Producción :

Publicación traducida automáticamente

Artículo escrito por mishrapratikshya12 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *