Trazado de gráficos en programación R

Cuando se trata de interpretar el mundo y la enorme cantidad de datos que produce diariamente, la visualización de datos se convierte en la forma más deseable. En lugar de filtrar enormes hojas de Excel, siempre es mejor visualizar esos datos a través de tablas y gráficos para obtener información significativa. 

R – Representación gráfica

El lenguaje de programación R proporciona algunas herramientas fáciles y rápidas que nos permiten convertir nuestros datos en elementos visualmente perspicaces como gráficos.  

El trazado de gráficos en R es de dos tipos: 

  • Trazado unidimensional: En el trazado unidimensional, representamos una variable a la vez. Por ejemplo, podemos graficar una variable con la cantidad de veces que cada uno de sus valores ocurrió en todo el conjunto de datos (frecuencia). Por lo tanto, no se compara con ninguna otra variable del conjunto de datos. Estos son los 4 tipos principales de gráficos que se utilizan para el análisis unidimensional: 
    • Resumen de cinco puntos
    • Trazado de caja
    • Histogramas
    • Trazado de barras
  • Trazado bidimensional: En el trazado bidimensional, visualizamos y comparamos una variable con respecto a la otra. Por ejemplo, en un conjunto de datos de medidas de calidad del aire, nos gustaría comparar cómo varía el AQI con la temperatura en un lugar en particular. Entonces, la temperatura y el AQI son dos variables diferentes y deseamos ver cómo cambia una con respecto a la otra. Estos son los 3 tipos principales de gráficos utilizados para este tipo de análisis: 
    • Trazado de caja
    • Histogramas
    • Gráfico de dispersión

A los efectos de este artículo, utilizaremos el conjunto de datos predeterminado (mtcars) proporcionado por RStudio. 

Cargando los datos

Abra RStudio (o R Terminal) y comience cargando el conjunto de datos. Escriba estos comandos en la consola. Esta es una forma de cargar los conjuntos de datos predeterminados proporcionados por R. (También se puede descargar y usar cualquier otro conjunto de datos)

R

library(datasets)
data(mtcars)

Para verificar si los datos se cargaron correctamente, ejecutamos el siguiente comando en la consola:

R

head(mtcars)

Producción:

Lightbox

Al ejecutar este comando, también sabemos qué columnas contiene nuestro conjunto de datos. En este caso, el conjunto de datos mtcars contiene 11 columnas, a saber: mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear y carb. Tenga en cuenta que el número de filas es mayor que el que se muestra aquí. La función head() muestra solo las 6 filas superiores del conjunto de datos.

Trazado unidimensional

En el trazado unidimensional, esencialmente trazamos una variable a la vez. Por lo tanto, no se compara con ninguna otra variable del conjunto de datos. Más bien, solo se cuidan sus características de inferencia estadística.

Resumen de cinco puntos

Para hacer referencia a un nombre de columna en particular en R, usamos el signo ‘$’. Por ejemplo, si queremos referirnos a la columna ‘engranaje’ en el conjunto de datos mtcars, nos referiremos a ella como – mtcars$gear. Entonces, para cualquier columna en particular del conjunto de datos, podemos generar un resumen de cinco puntos usando la función summary() . Simplemente pasamos el nombre de la columna (referido con el signo $) como argumento a esta función, de la siguiente manera:

R

summary(mtcars)

Producción:

Este resumen enumera características como la media, la mediana, el valor mínimo, el valor máximo y los valores del cuadrante de la columna en particular. 

Trazado de caja

Un diagrama de caja genera un rectángulo que cubre el área que abarca la columna del conjunto de datos. Se puede producir de la siguiente manera:

R

boxplot(mtcars$mpg, col="green")

Producción:

Tenga en cuenta que la línea gruesa en el rectángulo representa la mediana de la columna mpg, es decir, 19,20 como se ve en el resumen de cinco puntos. El col=”green” simplemente colorea el gráfico verde. 

Histogramas

Los histogramas son los gráficos más utilizados para analizar conjuntos de datos. Así es como podemos trazar un histograma que asigna una variable (nombre de columna) a su frecuencia:

R

hist(mtcars$mpg, col = "green")               ## Plot 1
hist(mtcars$mpg, col = "green", breaks = 25)  ## Plot 2
hist(mtcars$mpg, col = "green", breaks = 50)  ## Plot 3

El argumento ‘rompe’ esencialmente altera el ancho de las barras del histograma. Se ve que a medida que aumentamos el valor de la ruptura, las barras se vuelven más delgadas.

Salidas:

Trazado de barras

En los gráficos de barras, obtenemos un mapeo de frecuencia de valor discreto para cada valor presente en la variable (columna). Por ejemplo:

R

barplot(table(mtcars$carb), col="green")

Producción:

Vemos que la columna ‘carb’ contiene 6 valores discretos (en todas sus filas). El gráfico de barras anterior asigna estos 6 valores a su frecuencia (la cantidad de veces que ocurren).

Trazado bidimensional

En el trazado bidimensional, visualizamos y comparamos una variable con respecto a la otra.

Trazado de caja

Supongamos que deseamos generar diagramas de caja múltiples, en función del número de marchas que tiene cada automóvil. Entonces, el número de gráficos de caja que deseamos tener es igual al número de valores discretos en la columna ‘engranaje’, es decir, un gráfico para cada valor del engranaje. Esto se puede lograr de la siguiente manera:

R

boxplot(mpg~gear, data=mtcars, col = "green")

Producción:

Lightbox

Vemos que hay 3 valores de engranajes en la columna ‘engranaje’. Así, se han trazado 3 diagramas de caja diferentes, uno para cada arte.

Histogramas

Ahora suponga que deseamos crear histogramas separados para autos que tienen 4 cilindros y autos que tienen 8 cilindros. Para hacer esto, subdividimos nuestro conjunto de datos de manera que los datos del subconjunto contengan datos solo para aquellos autos que tienen 4 (u 8) cilindros. Luego, podemos trazar fácilmente nuestros datos de subconjunto usando la función hist() como antes. Así es como podemos lograr esto:

R

hist(subset(mtcars, cyl == 4)$mpg, col = "green")        ## Plot 1
hist(subset(mtcars, cyl == 8)$mpg, col = "green")        ## Plot 2

Gráfico de dispersión

Los diagramas de dispersión se utilizan para trazar puntos de datos para dos variables en los ejes x e y. Nos dicen patrones entre los datos y se usan ampliamente para modelar algoritmos de ML. Aquí, hacemos un gráfico de dispersión de la columna qsec con respecto a la columna mpg.

R

with(mtcars, plot(mpg, qsec))

Producción:

Sin embargo, la gráfica anterior realmente no nos muestra ningún patrón en los datos. Esto se debe a la cantidad limitada de filas (muestras) que teníamos en nuestro conjunto de datos. Cuando obtenemos datos de recursos externos, normalmente tiene un mínimo de más de 1000 filas. Al graficar un conjunto de datos tan extenso en un diagrama de dispersión, allanamos el camino para observaciones e ideas realmente interesantes.

Publicación traducida automáticamente

Artículo escrito por khushali_verma y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *