Gráfico de dispersión con línea de regresión usando Altair en Python

Prerrequisito: Altair

En este artículo, vamos a discutir cómo trazar diagramas de dispersión con una línea de regresión utilizando la biblioteca Altair.

Gráfico de dispersión y línea de regresión

  • Los valores de dos variables numéricas diferentes se representan mediante puntos o círculos en el diagrama de dispersión. Scatter Plot también se conoce como gráfico de dispersión o gráfico de dispersión. La posición de cada punto en el eje horizontal y vertical indica un valor para un punto de datos individual.
  • Los diagramas de dispersión son útiles para observar la relación entre las variables.
  • La línea de regresión es la línea recta que mejor se ajusta a los datos para que la distancia total desde la línea hasta los puntos trazados en el gráfico sea la más pequeña.

Instalación:

Para instalar la biblioteca de Altair, escriba el siguiente comando en su símbolo del sistema.

pip install altair

En este artículo para conjuntos de datos, estamos usando el paquete vega_datasets, para instalar, escriba el siguiente comando en su símbolo del sistema.

pip install vega_datasets

Acercarse:

  • Importe las bibliotecas necesarias.
  • Cree o cargue el conjunto de datos desde el paquete vega_dataset.
  • Para trazar el diagrama de dispersión usando la biblioteca de Altair, tenemos que dar tres elementos importantes para trazar de la siguiente manera.
    • En el primer elemento altair.Chart(dataset) pase el conjunto de datos como parámetro.
    • En el segundo elemento con un punto (.) agregue mark_point() este elemento especifica el tipo de gráfico que estamos trazando.
    • En el tercer elemento con un punto (.) agregue encode() en el que pase las columnas entre las que estamos trazando el diagrama de dispersión.
  • Guarde este diagrama de dispersión en una variable llamada «fig».
  • Luego trace la línea de regresión transform_regression() función y pase las columnas como un parámetro en el que se traza la línea de regresión y agréguelo al gráfico de dispersión que se almacena en la variable «fig».
  • Almacene el gráfico de dispersión con la línea de regresión en la variable que se denomine como «gráfico_final».
  • En caso de que esté escrito el código del programa en el archivo python, use la función guardar() para guardar el gráfico y puede ver ese gráfico en el navegador Chrome usando el comando CTRL + O y luego abra el gráfico guardado para visualizarlo.
  • De lo contrario, si está escrito en Jupyter Notebook o en un entorno de notebook, use show() para visualizar la trama.
  • Para saber cómo usar Jupyter Notebook: Primeros pasos con Jupyter Notebook .
  • Para una mejor comprensión, hagamos algunos ejemplos usando el conjunto de datos de aeropuertos y seattle_weather que viene con el paquete de conjunto de datos de Vega.

Ejemplo 1: Gráfico de dispersión predeterminado con línea de regresión en el conjunto de datos de aeropuertos.

Python

# importing libraries
import altair as alt
from vega_datasets import data
  
# importing airports dataset from 
# vega_datasets package
airport = data.airports()
  
# making the scatter plot on latitude and longitude
fig = alt.Chart(airport).mark_point().encode(x='latitude',y='longitude')
  
# making the regression line using transform_regression 
# function and add with the scatter plot
final_plot = fig + fig.transform_regression('latitude','longitude').mark_line()
  
# saving the scatter plot with regression line
final_plot.save('output1.html')

Producción:

Ejemplo 2: Gráfica de dispersión con línea de regresión configurando el color usando el conjunto de datos del aeropuerto.

Python

# importing libraries
import altair as alt
from vega_datasets import data
  
# importing airports dataset from vega_datasets package
airport = data.airports()
  
# making the scatter plot on latitude and longitude
# setting color on the basis of country
fig = alt.Chart(airport).mark_point().encode(
  x='latitude',y='longitude',color='country')
  
# making the regression line using transform_regression
# function and add with the scatter plot
final_plot = fig + fig.transform_regression('latitude','longitude').mark_line()
  
# saving the scatter plot with regression line
final_plot.save('output2.html')

Producción:

Ejemplo 3: Gráfica de dispersión predeterminada con línea de regresión utilizando el conjunto de datos seattle_weather.

Python

# importing libraries
import altair as alt
from vega_datasets import data
  
# importing weather dataset from vega_datasets package
weather_data = data.seattle_weather()
  
# making the scatter plot on temp_max and temp_min
fig = alt.Chart(weather_data).mark_point().encode(x='temp_max',y='temp_min')
  
# making the regression line using transform_regression
# function and add with the scatter plot
final_plot = fig + fig.transform_regression('temp_max','temp_min').mark_line()
  
# saving the scatter plot with regression line
final_plot.save('output3.html')

Producción:

Ejemplo 4: Gráfica de dispersión con línea de regresión al configurar el color usando el conjunto de datos seattle_weather.

Python

# importing libraries
import altair as alt
from vega_datasets import data
  
# importing weather dataset from vega_datasets package
weather_data = data.seattle_weather()
  
# making the scatter on temp_max and temp_min
fig = alt.Chart(weather_data).mark_point().encode(
  x='temp_max',y='temp_min',color='weather')
  
# making the regression line using transform_regression
# function and add with the scatter plot
final_plot = fig + fig.transform_regression('temp_max','temp_min').mark_line()
  
# saving the scatter plot with regression line
final_plot.save('output4.html')

Producción:

Publicación traducida automáticamente

Artículo escrito por srishivansh5404 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *