Una introducción a la gramática de gráficos para Python

Una gramática de gráficos es básicamente una herramienta que nos permite describir los componentes de un gráfico dado. Básicamente, lo que esto nos permite ver más allá de los gráficos nombrados (diagrama de dispersión, por nombrar uno) y básicamente ver las estadísticas subyacentes detrás de él. La gramática de gráficos fue introducida originalmente por Leland Wilkinson en la década de 1990 y fue popularizada por Hadley Wickham con ggplot .

Componentes de Gramática de gráficos

Por lo general, para construir o describir cualquier visualización con una o más dimensiones, podemos usar los componentes de la siguiente manera. 

  • Datos Los 
    datos son un componente esencial de la gramática gráfica. Después de todo, contiene toda la información que necesitamos para visualizar. Por eso, es importante saber cuál es el formato de los datos, y con qué información estamos trabajando.
  • Capa 
    Básicamente, una capa es algo con lo que te puedes identificar también en la vida real. Podemos pensar en las capas como una hoja transparente que contiene un gráfico, que se puede organizar y combinar de varias formas.
  • Geom 
    La representación visual de geom se conoce como geom. Una geom puede ser una línea, un punto o incluso una barra, un pastel, etc. Podemos mostrar mucha información mediante la «capa» de geoms.
  • Escalando datos 
    Es muy útil para volver a escalar nuestros datos. Escalar los datos no cambia los datos, por así decirlo, solo cambia el punto de vista del conjunto de datos. 

Esta gramática de gráficos se introdujo por primera vez en R, usando ggplot y ggplot2. Teniendo en cuenta su éxito en el pasado, también se introdujo en Python como plotnine. 

Enlace de Python

plotnine es una implementación/unión de una gramática de gráficos en Python. Está basado en ggplot2. Entonces, básicamente, si está familiarizado con la programación R y ggplot2, es probable que se ponga al día con plotnine en muy poco tiempo. Solo hay 2 cambios notables en ggplot2 y plotnine. 

  • En R, un signo más indica el código/instrucción para continuar a la siguiente línea. Sin embargo, si hacemos lo mismo en python, arroja una excepción. Para cubrir esto, en plotnine, la expresión antes del signo más está encerrada entre llaves y, por lo tanto, podría usarse así.
  • El nombre de la columna debe ser strings. Esta es más probablemente una característica de R, donde podría pasar el nombre de la columna como un argumento de función sin encerrarlo entre comillas. Sin embargo, en Python, si la palabra no está entre comillas dobles o simples, trataría la palabra como una variable. 

Instalación

Este módulo no viene integrado con Python. Para instalar este módulo, escriba el siguiente comando en la terminal.  

pip install plotnine 

Nota: Aquí está el enlace al archivo CSV utilizado en los siguientes ejemplos: dataset.csv

Ejemplo 1:  

Python3

import pandas as pd
from plotnine import *
 
 
# load dataset
dataset = pd.read_csv("dataset.csv")
 
# ggplot is to plot the given data
(ggplot(dataset, aes(x = "area_0", y = "area_1"))+
    geom_point()
)
 
# aes contains parameters which work
# as x-axis and y-axis for the given plot
# geom.point() makes the data entries as points

Producción: 

Ejemplo 2: 

Python3

import pandas as pd
from plotnine import *
 
 
# load dataset
dataset = pd.read_csv("dataset.csv")
 
(ggplot(dataset, aes(x = "area_0", y = "area_1"))+
    geom_point(color = "label", alpha = 0.7,
               size = 0.5)
)

Producción: 

Publicación traducida automáticamente

Artículo escrito por instantramen y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *