¿Cómo crear e interpretar diagramas de pares en R?

En este artículo, discutiremos cómo crear e interpretar gráficos de pares en el lenguaje R.

El gráfico de pares nos ayuda a visualizar la distribución de variables individuales, así como las relaciones entre dos variables. Son un gran método para identificar tendencias entre variables para el análisis de seguimiento. Los gráficos de pares son esencialmente gráficos de dispersión de varios paneles en los que cada panel diferente contiene un gráfico de dispersión entre un par de variables.

Método 1: Crear Parcelas en Base R

Para crear un gráfico de pares en el lenguaje R, usamos la función pairs(). La función de pares se proporciona en lenguaje R de forma predeterminada y produce una array de diagramas de dispersión. La función pairs() toma el marco de datos como argumento y devuelve una array de diagramas de dispersión entre cada par de variables en el marco de datos.

Sintaxis: pares (df)

Parámetro:

df: determina el marco de datos utilizado para trazar el gráfico de dispersión.

Ejemplo:

Aquí, hay un gráfico de pares básico en base R.

R

# create sample_data
x <- rnorm(500)
y <- x + rnorm(500, 0, 10)
z <- x - rnorm(500, 0, 7)
   
sample_data <- data.frame(x, y, z)
  
#create pairs plot 
pairs( sample_data )

Producción:

Aquí, en el gráfico de pares anterior, los cuadros diagonales muestran el nombre de las variables x, y y z. Todos los demás cuadros muestran un diagrama de dispersión entre cada combinación de variables por pares. Por ejemplo, el segundo cuadro muestra un diagrama de dispersión entre x e y, mientras que el tercer cuadro muestra un diagrama de dispersión entre x y z.

El problema con este diagrama de pares es que no nos brinda ninguna información estadística sobre las variables y solo hay tres diagramas de dispersión distinguidos de seis en la figura anterior, ya que el diagrama xz y zx es el mismo, el diagrama yx y xy es el mismo, y La trama de yz y zy es la misma. Por lo tanto, hay un desperdicio de espacio, así como la ausencia de datos relacionales. Para solucionar esto usamos el paquete ggplot2.

Método 2: crear gráficos de pares usando ggplot2 y ggally

Para crear un diagrama de pares usando el paquete ggplot2, usamos la función ggpairs() del paquete ggally. El paquete ggally es una extensión del paquete ggplot2 que amplía el paquete ggplot2 agregando varias funciones para reducir la complejidad de combinar los geoms con datos transformados. La función ggpairs() crea una array de gráficos con un conjunto de datos determinado. Produce diagramas de dispersión para cada par de variables, diagramas de densidad para cada variable y también muestra los coeficientes de correlación de Pearson de cada par de variables.

Sintaxis:

ggpares( df )

Parámetro:

df: determina el marco de datos utilizado para trazar el gráfico de dispersión.

Ejemplo:

Aquí, hay un gráfico de pares básico que usa la biblioteca de paquetes ggplot2 y ggally.

R

# load libraries ggplot2 and ggally
library(ggplot2)
library(GGally)
  
# create sample_data
x <- rnorm(500)
y <- x + rnorm(500, 0, 10)
z <- x - rnorm(500, 0, 7)
   
sample_data <- data.frame(x, y, z)
  
# create pairs plot
ggpairs( sample_data )

Producción:

Aquí, en el gráfico de pares anterior, los nombres de las variables se muestran en los bordes exteriores de la array como x, y y z. Los cuadros a lo largo de las diagonales muestran el diagrama de densidad para cada variable, mientras que los cuadros en la esquina inferior izquierda muestran el diagrama de dispersión entre cada par de variables. Los cuadros en la esquina superior derecha muestran el coeficiente de correlación de Pearson entre cada variable.

La correlación de Pearson nos da la medida de la relación lineal entre dos variables. Tiene un valor entre -1 y 1, donde un valor de -1 significa una correlación lineal negativa total, 0 significa que no hay correlación y + 1 significa una correlación positiva total.

Los diagramas de pares creados con el paquete ggplot2 son mejores porque brindan más información visual sin repetir el mismo diagrama. También nos dan el coeficiente de correlación de Pearson que nos ayuda a comprender la relación entre esas variables.

Publicación traducida automáticamente

Artículo escrito por mishrapriyank17 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Método 1: Crear Parcelas en Base R

R

Método 2: crear gráficos de pares usando ggplot2 y ggally

R

Deja una respuesta Cancelar la respuesta