La visualización de datos es la técnica utilizada para brindar información sobre los datos utilizando señales visuales como gráficos, tablas, mapas y muchos otros. Esto es útil ya que ayuda a la comprensión intuitiva y fácil de las grandes cantidades de datos y, por lo tanto, a tomar mejores decisiones al respecto.
Visualización de datos en lenguaje de programación R
Las herramientas populares de visualización de datos disponibles son Tableau, Plotly, R, Google Charts, Infogram y Kibana. Las diversas plataformas de visualización de datos tienen diferentes capacidades, funcionalidades y casos de uso. También requieren un conjunto de habilidades diferente. Este artículo analiza el uso de R para la visualización de datos.
R es un lenguaje diseñado para la computación estadística, el análisis de datos gráficos y la investigación científica. Por lo general, se prefiere para la visualización de datos, ya que ofrece flexibilidad y la codificación mínima requerida a través de sus paquetes.
Considere el siguiente conjunto de datos de calidad del aire para visualización en R:
Ozono | r solar | Viento | Temperatura | Mes | Día |
---|---|---|---|---|---|
41 | 190 | 7.4 | 67 | 5 | 1 |
36 | 118 | 8.0 | 72 | 5 | 2 |
12 | 149 | 12.6 | 74 | 5 | 3 |
18 | 313 | 11.5 | 62 | 5 | 4 |
N / A | N / A | 14.3 | 56 | 5 | 5 |
28 | N / A | 14.9 | 66 | 5 | 6 |
Tipos de visualizaciones de datos
Algunos de los diversos tipos de visualizaciones que ofrece R son:
Parcela de barra
Hay dos tipos de gráficos de barras: horizontal y vertical, que representan puntos de datos como barras horizontales o verticales de ciertas longitudes proporcionales al valor del elemento de datos. Generalmente se utilizan para el trazado de variables continuas y categóricas. Al establecer el parámetro horiz en verdadero y falso, podemos obtener gráficos de barras horizontales y verticales respectivamente.
Ejemplo 1:
R
# Horizontal Bar Plot for # Ozone concentration in air barplot(airquality$Ozone, main = 'Ozone Concenteration in air', xlab = 'ozone levels', horiz = TRUE)
Producción:
Ejemplo 2:
R
# Vertical Bar Plot for # Ozone concentration in air barplot(airquality$Ozone, main = 'Ozone Concenteration in air', xlab = 'ozone levels', col ='blue', horiz = FALSE)
Producción:
Los diagramas de barras se utilizan para los siguientes escenarios:
- Realizar un estudio comparativo entre las diversas categorías de datos del conjunto de datos.
- Analizar el cambio de una variable a lo largo del tiempo en meses o años.
Histograma
Un histograma es como un gráfico de barras, ya que utiliza barras de diferentes alturas para representar la distribución de datos. Sin embargo, en un histograma los valores se agrupan en intervalos consecutivos llamados bins. En un histograma, los valores continuos se agrupan y muestran en estos contenedores cuyo tamaño puede variar.
Ejemplo:
R
# Histogram for Maximum Daily Temperature data(airquality) hist(airquality$Temp, main ="La Guardia Airport's\ Maximum Temperature(Daily)", xlab ="Temperature(Fahrenheit)", xlim = c(50, 125), col ="yellow", freq = TRUE)
Producción:
Para un histograma, el parámetro xlim se puede usar para especificar el intervalo dentro del cual se mostrarán todos los valores.
Otro parámetro freq cuando se establece en TRUE denota la frecuencia de los diversos valores en el histograma y cuando se establece en FALSE , las densidades de probabilidad se representan en el eje y de modo que son del histograma suman uno.
Los histogramas se utilizan en los siguientes escenarios:
- Verificar una distribución equitativa y simétrica de los datos.
- Identificar desviaciones de los valores esperados.
diagrama de caja
El resumen estadístico de los datos proporcionados se presenta gráficamente mediante un diagrama de caja. Un diagrama de caja representa información como el punto de datos mínimo y máximo, el valor de la mediana, el primer y tercer cuartil y el rango intercuartílico.
Ejemplo:
R
# Box plot for average wind speed data(airquality) boxplot(airquality$Wind, main = "Average wind speed\ at La Guardia Airport", xlab = "Miles per hour", ylab = "Wind", col = "orange", border = "brown", horizontal = TRUE, notch = TRUE)
Producción:
También se pueden generar múltiples diagramas de caja a la vez a través del siguiente código:
Ejemplo:
R
# Multiple Box plots, each representing # an Air Quality Parameter boxplot(airquality[, 0:4], main ='Box Plots for Air Quality Parameters')
Producción:
Los diagramas de caja se utilizan para:
- Dar una descripción estadística completa de los datos a través de una indicación visual.
- Para identificar los puntos atípicos que no se encuentran en el rango de datos intercuartil.
Gráfico de dispersión
Un diagrama de dispersión se compone de muchos puntos en un plano cartesiano. Cada punto denota el valor que toman dos parámetros y nos ayuda a identificar fácilmente la relación entre ellos.
Ejemplo:
R
# Scatter plot for Ozone Concentration per month data(airquality) plot(airquality$Ozone, airquality$Month, main ="Scatterplot Example", xlab ="Ozone Concentration in parts per billion", ylab =" Month of observation ", pch = 19)
Producción:
Los diagramas de dispersión se utilizan en los siguientes escenarios:
- Mostrar si existe una asociación entre datos bivariados.
- Para medir la fuerza y la dirección de tal relación.
Mapa de calor
El mapa de calor se define como una representación gráfica de datos que utiliza colores para visualizar el valor de la array. La función heatmap() se utiliza para trazar el mapa de calor.
Sintaxis: mapa de calor (datos)
Parámetros: datos: representa datos de array, como valores de filas y columnas
Retorno: Esta función dibuja un mapa de calor.
R
# Set seed for reproducibility # set.seed(110) # Create example data data <- matrix(rnorm(50, 0, 5), nrow = 5, ncol = 5) # Column names colnames(data) <- paste0("col", 1:5) rownames(data) <- paste0("row", 1:5) # Draw a heatmap heatmap(data)
Producción:
Visualización de mapas en R
Aquí estamos usando el paquete de mapas para visualizar y mostrar mapas geográficos usando un lenguaje de programación R.
install.packages("maps")
Enlace del conjunto de datos: worldcities.csv
R
# Read dataset and convert it into # Dataframe data <- read.csv("worldcities.csv") df <- data.frame(data) # Load the required libraries library(maps) map(database = "world") # marking points on map points(x = df$lat[1:500], y = df$lng[1:500], col = "Red")
Producción:
Gráficos 3D en R
Aquí usaremos la función preps(). Esta función se usa para crear superficies 3D en vista en perspectiva. Esta función dibujará gráficos en perspectiva de una superficie sobre el plano x–y.
Sintaxis: persp(x, y, z)
Parámetro: esta función acepta diferentes parámetros, es decir, x, y y z, donde x e y son vectores que definen la ubicación a lo largo de los ejes x e y. El eje z será la altura de la superficie en la array z.
Valor devuelto: persp() devuelve la array de transformación de visualización para proyectar coordenadas 3D (x, y, z) en el plano 2D utilizando coordenadas 4D homogéneas (x, y, z, t).
R
# Adding Titles and Labeling Axes to Plot cone <- function(x, y){ sqrt(x ^ 2 + y ^ 2) } # prepare variables. x <- y <- seq(-1, 1, length = 30) z <- outer(x, y, cone) # plot the 3D surface # Adding Titles and Labeling Axes to Plot persp(x, y, z, main="Perspective Plot of a Cone", zlab = "Height", theta = 30, phi = 15, col = "orange", shade = 0.4)
Producción:
Ventajas de la visualización de datos en R:
R tiene las siguientes ventajas sobre otras herramientas para la visualización de datos:
- R ofrece una amplia colección de bibliotecas de visualización junto con una amplia guía en línea sobre su uso.
- R también ofrece visualización de datos en forma de modelos 3D y gráficos multipanel.
- A través de R, podemos personalizar fácilmente nuestra visualización de datos cambiando ejes, fuentes, leyendas, anotaciones y etiquetas.
Desventajas de la visualización de datos en R:
R también tiene las siguientes desventajas:
- R solo se prefiere para la visualización de datos cuando se realiza en un servidor independiente individual.
- La visualización de datos con R es lenta para grandes cantidades de datos en comparación con otras contrapartes.
Áreas de aplicación:
- Presentar conclusiones analíticas de los datos a los departamentos no analistas de su empresa.
- Los dispositivos de monitoreo de la salud utilizan la visualización de datos para rastrear cualquier anomalía en la presión arterial, el colesterol y otros.
- Descubrir patrones y tendencias repetitivos en los datos de consumo y marketing.
- Los meteorólogos utilizan la visualización de datos para evaluar los cambios climáticos predominantes en todo el mundo.
- Los mapas en tiempo real y los sistemas de geoposicionamiento utilizan la visualización para monitorear el tráfico y estimar el tiempo de viaje.
Publicación traducida automáticamente
Artículo escrito por bhartirishika y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA