Visualización de datos en R

La visualización de datos es la técnica utilizada para brindar información sobre los datos utilizando señales visuales como gráficos, tablas, mapas y muchos otros. Esto es útil ya que ayuda a la comprensión intuitiva y fácil de las grandes cantidades de datos y, por lo tanto, a tomar mejores decisiones al respecto.

Visualización de datos en lenguaje de programación R

Las herramientas populares de visualización de datos disponibles son Tableau, Plotly, R, Google Charts, Infogram y Kibana. Las diversas plataformas de visualización de datos tienen diferentes capacidades, funcionalidades y casos de uso. También requieren un conjunto de habilidades diferente. Este artículo analiza el uso de R para la visualización de datos.

R es un lenguaje diseñado para la computación estadística, el análisis de datos gráficos y la investigación científica. Por lo general, se prefiere para la visualización de datos, ya que ofrece flexibilidad y la codificación mínima requerida a través de sus paquetes.

Considere el siguiente conjunto de datos de calidad del aire para visualización en R:

Ozono r solar Viento Temperatura Mes Día
41 190 7.4 67 5 1
36 118 8.0 72 5 2
12 149 12.6 74 5 3
18 313 11.5 62 5 4
N / A N / A 14.3 56 5 5
28 N / A 14.9 66 5 6

Tipos de visualizaciones de datos

Algunos de los diversos tipos de visualizaciones que ofrece R son:

Parcela de barra

Hay dos tipos de gráficos de barras: horizontal y vertical, que representan puntos de datos como barras horizontales o verticales de ciertas longitudes proporcionales al valor del elemento de datos. Generalmente se utilizan para el trazado de variables continuas y categóricas. Al establecer el parámetro horiz en verdadero y falso, podemos obtener gráficos de barras horizontales y verticales respectivamente. 

Ejemplo 1: 

R

# Horizontal Bar Plot for 
# Ozone concentration in air
barplot(airquality$Ozone,
        main = 'Ozone Concenteration in air',
        xlab = 'ozone levels', horiz = TRUE)

Producción:

Ejemplo 2: 

R

# Vertical Bar Plot for 
# Ozone concentration in air
barplot(airquality$Ozone, main = 'Ozone Concenteration in air', 
        xlab = 'ozone levels', col ='blue', horiz = FALSE)

Producción:

Los diagramas de barras se utilizan para los siguientes escenarios:

  • Realizar un estudio comparativo entre las diversas categorías de datos del conjunto de datos.
  • Analizar el cambio de una variable a lo largo del tiempo en meses o años.

Histograma

Un histograma es como un gráfico de barras, ya que utiliza barras de diferentes alturas para representar la distribución de datos. Sin embargo, en un histograma los valores se agrupan en intervalos consecutivos llamados bins. En un histograma, los valores continuos se agrupan y muestran en estos contenedores cuyo tamaño puede variar.

Ejemplo: 

R

# Histogram for Maximum Daily Temperature
data(airquality)
  
hist(airquality$Temp, main ="La Guardia Airport's\
Maximum Temperature(Daily)",
    xlab ="Temperature(Fahrenheit)",
    xlim = c(50, 125), col ="yellow",
    freq = TRUE)

Producción:

Para un histograma, el parámetro xlim se puede usar para especificar el intervalo dentro del cual se mostrarán todos los valores. 
Otro parámetro freq cuando se establece en TRUE denota la frecuencia de los diversos valores en el histograma y cuando se establece en FALSE , las densidades de probabilidad se representan en el eje y de modo que son del histograma suman uno. 

Los histogramas se utilizan en los siguientes escenarios: 

  • Verificar una distribución equitativa y simétrica de los datos.
  • Identificar desviaciones de los valores esperados.

diagrama de caja

El resumen estadístico de los datos proporcionados se presenta gráficamente mediante un diagrama de caja. Un diagrama de caja representa información como el punto de datos mínimo y máximo, el valor de la mediana, el primer y tercer cuartil y el rango intercuartílico.

Ejemplo: 

R

# Box plot for average wind speed
data(airquality)
  
boxplot(airquality$Wind, main = "Average wind speed\
at La Guardia Airport",
        xlab = "Miles per hour", ylab = "Wind",
        col = "orange", border = "brown",
        horizontal = TRUE, notch = TRUE)

Producción:

También se pueden generar múltiples diagramas de caja a la vez a través del siguiente código:

Ejemplo: 

R

# Multiple Box plots, each representing
# an Air Quality Parameter
boxplot(airquality[, 0:4], 
        main ='Box Plots for Air Quality Parameters')

Producción:

Los diagramas de caja se utilizan para: 

  • Dar una descripción estadística completa de los datos a través de una indicación visual.
  • Para identificar los puntos atípicos que no se encuentran en el rango de datos intercuartil.

Gráfico de dispersión

Un diagrama de dispersión se compone de muchos puntos en un plano cartesiano. Cada punto denota el valor que toman dos parámetros y nos ayuda a identificar fácilmente la relación entre ellos.

Ejemplo: 

R

# Scatter plot for Ozone Concentration per month
data(airquality)
  
plot(airquality$Ozone, airquality$Month,
     main ="Scatterplot Example",
    xlab ="Ozone Concentration in parts per billion",
    ylab =" Month of observation ", pch = 19)

Producción:

Los diagramas de dispersión se utilizan en los siguientes escenarios: 

  • Mostrar si existe una asociación entre datos bivariados.
  • Para medir la fuerza y ​​la dirección de tal relación.

Mapa de calor

El mapa de calor se define como una representación gráfica de datos que utiliza colores para visualizar el valor de la array. La función heatmap() se utiliza para trazar el mapa de calor.

Sintaxis: mapa de calor (datos)

Parámetros: datos: representa datos de array, como valores de filas y columnas

Retorno: Esta función dibuja un mapa de calor.

R

# Set seed for reproducibility
# set.seed(110)
  
# Create example data
data <- matrix(rnorm(50, 0, 5), nrow = 5, ncol = 5)
  
# Column names
colnames(data) <- paste0("col", 1:5)
rownames(data) <- paste0("row", 1:5)
  
# Draw a heatmap
heatmap(data)        

Producción:

Visualización de mapas en R

Aquí estamos usando el paquete de mapas para visualizar y mostrar mapas geográficos usando un lenguaje de programación R.

install.packages("maps")

Enlace del conjunto de datos: worldcities.csv

R

# Read dataset and convert it into
# Dataframe
data <- read.csv("worldcities.csv")
df <- data.frame(data)
  
# Load the required libraries
library(maps)
map(database = "world")
    
# marking points on map
points(x = df$lat[1:500], y = df$lng[1:500], col = "Red")

Producción:

Gráficos 3D en R 

Aquí usaremos la función preps(). Esta función se usa para crear superficies 3D en vista en perspectiva. Esta función dibujará gráficos en perspectiva de una superficie sobre el plano x–y.

Sintaxis: persp(x, y, z)

Parámetro: esta función acepta diferentes parámetros, es decir, x, y y z, donde x e y son vectores que definen la ubicación a lo largo de los ejes x e y. El eje z será la altura de la superficie en la array z.

Valor devuelto: persp() devuelve la array de transformación de visualización para proyectar coordenadas 3D (x, y, z) en el plano 2D utilizando coordenadas 4D homogéneas (x, y, z, t).

R

# Adding Titles and Labeling Axes to Plot
cone <- function(x, y){
sqrt(x ^ 2 + y ^ 2)
}
    
# prepare variables.
x <- y <- seq(-1, 1, length = 30)
z <- outer(x, y, cone)
    
# plot the 3D surface
# Adding Titles and Labeling Axes to Plot
persp(x, y, z,
main="Perspective Plot of a Cone",
zlab = "Height",
theta = 30, phi = 15,
col = "orange", shade = 0.4)

Producción:

Ventajas de la visualización de datos en R: 

R tiene las siguientes ventajas sobre otras herramientas para la visualización de datos: 

  • R ofrece una amplia colección de bibliotecas de visualización junto con una amplia guía en línea sobre su uso.
  • R también ofrece visualización de datos en forma de modelos 3D y gráficos multipanel.
  • A través de R, podemos personalizar fácilmente nuestra visualización de datos cambiando ejes, fuentes, leyendas, anotaciones y etiquetas.

Desventajas de la visualización de datos en R:

R también tiene las siguientes desventajas: 

  • R solo se prefiere para la visualización de datos cuando se realiza en un servidor independiente individual.
  • La visualización de datos con R es lenta para grandes cantidades de datos en comparación con otras contrapartes.

Áreas de aplicación: 

  • Presentar conclusiones analíticas de los datos a los departamentos no analistas de su empresa.
  • Los dispositivos de monitoreo de la salud utilizan la visualización de datos para rastrear cualquier anomalía en la presión arterial, el colesterol y otros.
  • Descubrir patrones y tendencias repetitivos en los datos de consumo y marketing.
  • Los meteorólogos utilizan la visualización de datos para evaluar los cambios climáticos predominantes en todo el mundo.
  • Los mapas en tiempo real y los sistemas de geoposicionamiento utilizan la visualización para monitorear el tráfico y estimar el tiempo de viaje.

Publicación traducida automáticamente

Artículo escrito por bhartirishika y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *