Visualización de datos usando Turicreate en Python

n Machine Learning, la visualización de datos es una fase muy importante. Para comprender correctamente el comportamiento y las características de sus datos, es necesario visualizarlos perfectamente. Así que aquí estoy con mi publicación sobre cómo visualizar de manera eficiente y al mismo tiempo fácilmente sus datos para extraer el máximo provecho de ellos.

 Antes de entrar en detalles sobre cómo visualizar datos, primero comprenda algunas terminologías.

  • Turicreate : Turi Create es un conjunto de herramientas de código abierto para crear modelos Core ML, para tareas como clasificación de imágenes, detección de objetos, transferencias de estilo, recomendaciones y más. Aprende cómo puedes usar Turi Create para construir modelos para tus aplicaciones.
  • SFrame : SFrame significa marco de datos escalable. Un objeto de marco de datos tabular y mutable en columnas que se puede escalar a big data. Los datos en SFrame se almacenan en columnas.
  • Sarray : cada columna en un SFrame se denomina Sarray.

¿Por qué Turicreate? :  En este momento, todos deberían estar adivinando por qué elijo turicreate para la visualización de datos cuando hay Pandas, que es muy fácil de usar. Así que resaltaré algunos puntos en los que turicreate es mejor que pandas:

  1. Pandas es una estructura de datos en memoria. Esto significa que normalmente no puede almacenar marcos de datos más grandes que la memoria principal (por ejemplo, RAM) en su máquina, mientras que SFrame es una estructura de datos fuera del núcleo. Esto significa que puede almacenar virtualmente cualquier marco de datos de tamaño siempre que no se quede sin espacio en disco (por ejemplo, discos duros) y memoria (por ejemplo, RAM).
  2. En turicreate, puede utilizar la función de visualización integrada para visualizar sus datos, pero en el caso de los pandas, debe utilizar otras herramientas para la visualización de datos (como matplotlib, seaborn, etc.).

Entonces, comencemos con el contenido real: 

Antes de visualizar los datos, primero debemos instalar las bibliotecas necesarias:

pip install turicreate

Entonces, ahora tenemos nuestra configuración completa. Entonces, comencemos importando el conjunto de datos.

Enlace al conjunto de datos utilizado en este tutorial: https://www.kaggle.com/c/house-prices-advanced-regression-techniques

# importing turicreate
import turicreate
  
# loading the dataset
training_data = turicreate.SFrame.read_csv("Url of the dataset").
  
# print the first 10 rows of your training data set
training_data.head()

Producción :

Producción

Ahora viene la parte de visualización de datos

Parcela de barra:

# for data plotting
training_data['OverallCond'].plot(title = "Overall Condition of the house", 
                                  xlabel = "Rating", 
                                  ylabel = "No. of Houses")

Producción : 

Salida para gráfico de barras

Gráfico de dispersión :

# for scatter plot
turicreate.visualization.scatter(training_data["OverallCond"], 
                                 training_data["SalePrice"], 
                                 xlabel = "Overall Condition", 
                                 ylabel = "Sale Price")

Producción :

Salida para diagrama de dispersión

Mapa de calor :

# for heatmap
turicreate.visualization.heatmap(training_data["OverallCond"], 
                                 training_data["SalePrice"], 
                                 xlabel = "Overall Condition", 
                                 ylabel = "Sale Price")

Producción :

Salida para mapa de calor

Mapa de calor categórico:

# for categorical heatmap
turicreate.visualization.categorical_heatmap(training_data["Street"], 
                                             training_data["LotShape"], 
                                             xlabel = "Street", 
                                             ylabel = "Lot Shape")

Salida para mapa de calor categórico

Diagrama de caja:

# for box plot
turicreate.visualization.box_plot(training_data["Street"], 
                                  training_data["SalePrice"], 
                                  xlabel = "Street", 
                                  ylabel = "Sale Price")

Producción :

Salida para diagrama de caja

Histograma:

# for histogram
turicreate.visualization.histogram(training_data["SalePrice"], 
                                   xlabel ="Sale Price")

Producción :

Salida para histograma

Publicación traducida automáticamente

Artículo escrito por shawavisek35 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *