Prerrequisito: Altair
En este artículo, vamos a discutir cómo trazar diagramas de dispersión con una línea de regresión utilizando la biblioteca Altair.
Gráfico de dispersión y línea de regresión
- Los valores de dos variables numéricas diferentes se representan mediante puntos o círculos en el diagrama de dispersión. Scatter Plot también se conoce como gráfico de dispersión o gráfico de dispersión. La posición de cada punto en el eje horizontal y vertical indica un valor para un punto de datos individual.
- Los diagramas de dispersión son útiles para observar la relación entre las variables.
- La línea de regresión es la línea recta que mejor se ajusta a los datos para que la distancia total desde la línea hasta los puntos trazados en el gráfico sea la más pequeña.
Instalación:
Para instalar la biblioteca de Altair, escriba el siguiente comando en su símbolo del sistema.
pip install altair
En este artículo para conjuntos de datos, estamos usando el paquete vega_datasets, para instalar, escriba el siguiente comando en su símbolo del sistema.
pip install vega_datasets
Acercarse:
- Importe las bibliotecas necesarias.
- Cree o cargue el conjunto de datos desde el paquete vega_dataset.
- Para trazar el diagrama de dispersión usando la biblioteca de Altair, tenemos que dar tres elementos importantes para trazar de la siguiente manera.
- En el primer elemento altair.Chart(dataset) pase el conjunto de datos como parámetro.
- En el segundo elemento con un punto (.) agregue mark_point() este elemento especifica el tipo de gráfico que estamos trazando.
- En el tercer elemento con un punto (.) agregue encode() en el que pase las columnas entre las que estamos trazando el diagrama de dispersión.
- Guarde este diagrama de dispersión en una variable llamada «fig».
- Luego trace la línea de regresión transform_regression() función y pase las columnas como un parámetro en el que se traza la línea de regresión y agréguelo al gráfico de dispersión que se almacena en la variable «fig».
- Almacene el gráfico de dispersión con la línea de regresión en la variable que se denomine como «gráfico_final».
- En caso de que esté escrito el código del programa en el archivo python, use la función guardar() para guardar el gráfico y puede ver ese gráfico en el navegador Chrome usando el comando CTRL + O y luego abra el gráfico guardado para visualizarlo.
- De lo contrario, si está escrito en Jupyter Notebook o en un entorno de notebook, use show() para visualizar la trama.
- Para saber cómo usar Jupyter Notebook: Primeros pasos con Jupyter Notebook .
- Para una mejor comprensión, hagamos algunos ejemplos usando el conjunto de datos de aeropuertos y seattle_weather que viene con el paquete de conjunto de datos de Vega.
Ejemplo 1: Gráfico de dispersión predeterminado con línea de regresión en el conjunto de datos de aeropuertos.
Python
# importing libraries import altair as alt from vega_datasets import data # importing airports dataset from # vega_datasets package airport = data.airports() # making the scatter plot on latitude and longitude fig = alt.Chart(airport).mark_point().encode(x='latitude',y='longitude') # making the regression line using transform_regression # function and add with the scatter plot final_plot = fig + fig.transform_regression('latitude','longitude').mark_line() # saving the scatter plot with regression line final_plot.save('output1.html')
Producción:
Ejemplo 2: Gráfica de dispersión con línea de regresión configurando el color usando el conjunto de datos del aeropuerto.
Python
# importing libraries import altair as alt from vega_datasets import data # importing airports dataset from vega_datasets package airport = data.airports() # making the scatter plot on latitude and longitude # setting color on the basis of country fig = alt.Chart(airport).mark_point().encode( x='latitude',y='longitude',color='country') # making the regression line using transform_regression # function and add with the scatter plot final_plot = fig + fig.transform_regression('latitude','longitude').mark_line() # saving the scatter plot with regression line final_plot.save('output2.html')
Producción:
Ejemplo 3: Gráfica de dispersión predeterminada con línea de regresión utilizando el conjunto de datos seattle_weather.
Python
# importing libraries import altair as alt from vega_datasets import data # importing weather dataset from vega_datasets package weather_data = data.seattle_weather() # making the scatter plot on temp_max and temp_min fig = alt.Chart(weather_data).mark_point().encode(x='temp_max',y='temp_min') # making the regression line using transform_regression # function and add with the scatter plot final_plot = fig + fig.transform_regression('temp_max','temp_min').mark_line() # saving the scatter plot with regression line final_plot.save('output3.html')
Producción:
Ejemplo 4: Gráfica de dispersión con línea de regresión al configurar el color usando el conjunto de datos seattle_weather.
Python
# importing libraries import altair as alt from vega_datasets import data # importing weather dataset from vega_datasets package weather_data = data.seattle_weather() # making the scatter on temp_max and temp_min fig = alt.Chart(weather_data).mark_point().encode( x='temp_max',y='temp_min',color='weather') # making the regression line using transform_regression # function and add with the scatter plot final_plot = fig + fig.transform_regression('temp_max','temp_min').mark_line() # saving the scatter plot with regression line final_plot.save('output4.html')
Producción:
Publicación traducida automáticamente
Artículo escrito por srishivansh5404 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA