n Machine Learning, la visualización de datos es una fase muy importante. Para comprender correctamente el comportamiento y las características de sus datos, es necesario visualizarlos perfectamente. Así que aquí estoy con mi publicación sobre cómo visualizar de manera eficiente y al mismo tiempo fácilmente sus datos para extraer el máximo provecho de ellos.
Antes de entrar en detalles sobre cómo visualizar datos, primero comprenda algunas terminologías.
- Turicreate : Turi Create es un conjunto de herramientas de código abierto para crear modelos Core ML, para tareas como clasificación de imágenes, detección de objetos, transferencias de estilo, recomendaciones y más. Aprende cómo puedes usar Turi Create para construir modelos para tus aplicaciones.
- SFrame : SFrame significa marco de datos escalable. Un objeto de marco de datos tabular y mutable en columnas que se puede escalar a big data. Los datos en SFrame se almacenan en columnas.
- Sarray : cada columna en un SFrame se denomina Sarray.
¿Por qué Turicreate? : En este momento, todos deberían estar adivinando por qué elijo turicreate para la visualización de datos cuando hay Pandas, que es muy fácil de usar. Así que resaltaré algunos puntos en los que turicreate es mejor que pandas:
- Pandas es una estructura de datos en memoria. Esto significa que normalmente no puede almacenar marcos de datos más grandes que la memoria principal (por ejemplo, RAM) en su máquina, mientras que SFrame es una estructura de datos fuera del núcleo. Esto significa que puede almacenar virtualmente cualquier marco de datos de tamaño siempre que no se quede sin espacio en disco (por ejemplo, discos duros) y memoria (por ejemplo, RAM).
- En turicreate, puede utilizar la función de visualización integrada para visualizar sus datos, pero en el caso de los pandas, debe utilizar otras herramientas para la visualización de datos (como matplotlib, seaborn, etc.).
Entonces, comencemos con el contenido real:
Antes de visualizar los datos, primero debemos instalar las bibliotecas necesarias:
pip install turicreate
Entonces, ahora tenemos nuestra configuración completa. Entonces, comencemos importando el conjunto de datos.
Enlace al conjunto de datos utilizado en este tutorial: https://www.kaggle.com/c/house-prices-advanced-regression-techniques
# importing turicreate import turicreate # loading the dataset training_data = turicreate.SFrame.read_csv("Url of the dataset"). # print the first 10 rows of your training data set training_data.head()
Producción :
Ahora viene la parte de visualización de datos :
Parcela de barra:
# for data plotting training_data['OverallCond'].plot(title = "Overall Condition of the house", xlabel = "Rating", ylabel = "No. of Houses")
Producción :
Gráfico de dispersión :
# for scatter plot turicreate.visualization.scatter(training_data["OverallCond"], training_data["SalePrice"], xlabel = "Overall Condition", ylabel = "Sale Price")
Producción :
Mapa de calor :
# for heatmap turicreate.visualization.heatmap(training_data["OverallCond"], training_data["SalePrice"], xlabel = "Overall Condition", ylabel = "Sale Price")
Producción :
Mapa de calor categórico:
# for categorical heatmap turicreate.visualization.categorical_heatmap(training_data["Street"], training_data["LotShape"], xlabel = "Street", ylabel = "Lot Shape")
Diagrama de caja:
# for box plot turicreate.visualization.box_plot(training_data["Street"], training_data["SalePrice"], xlabel = "Street", ylabel = "Sale Price")
Producción :
Histograma:
# for histogram turicreate.visualization.histogram(training_data["SalePrice"], xlabel ="Sale Price")
Producción :
Publicación traducida automáticamente
Artículo escrito por shawavisek35 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA