Generación de nube de palabras en Python

Word Cloud es una técnica de visualización de datos utilizada para representar datos de texto en el que el tamaño de cada palabra indica su frecuencia o importancia. Los puntos de datos textuales significativos se pueden resaltar mediante una nube de palabras. Las nubes de palabras se utilizan ampliamente para analizar datos de sitios web de redes sociales.

Para generar una nube de palabras en Python, los módulos necesarios son: matplotlib, pandas y wordcloud. Para instalar estos paquetes, ejecute los siguientes comandos:

pip install matplotlib
pip install pandas
pip install wordcloud

El conjunto de datos utilizado para generar la nube de palabras se recopila del repositorio de aprendizaje automático de UCI. Consiste en comentarios de YouTube sobre videos de artistas populares. 
Enlace del conjunto de datos: https://archive.ics.uci.edu/ml/machine-learning-databases/00380/

A continuación se muestra la implementación: 

Python3

# Python program to generate WordCloud
 
# importing all necessary modules
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
import pandas as pd
 
# Reads 'Youtube04-Eminem.csv' file
df = pd.read_csv(r"Youtube04-Eminem.csv", encoding ="latin-1")
 
comment_words = ''
stopwords = set(STOPWORDS)
 
# iterate through the csv file
for val in df.CONTENT:
     
    # typecaste each val to string
    val = str(val)
 
    # split the value
    tokens = val.split()
     
    # Converts each token into lowercase
    for i in range(len(tokens)):
        tokens[i] = tokens[i].lower()
     
    comment_words += " ".join(tokens)+" "
 
wordcloud = WordCloud(width = 800, height = 800,
                background_color ='white',
                stopwords = stopwords,
                min_font_size = 10).generate(comment_words)
 
# plot the WordCloud image                      
plt.figure(figsize = (8, 8), facecolor = None)
plt.imshow(wordcloud)
plt.axis("off")
plt.tight_layout(pad = 0)
 
plt.show()

Producción : 
 

La nube de palabras anterior se generó utilizando el archivo Youtube04-Eminem.csv en el conjunto de datos. Una tarea interesante podría ser generar nubes de palabras utilizando otros archivos csv disponibles en el conjunto de datos.

Ventajas de las nubes de palabras: 

  1. Analizar los comentarios de los clientes y empleados.
  2. Identificación de nuevas palabras clave de SEO a las que apuntar.

Inconvenientes de las nubes de palabras: 

  1. Las nubes de palabras no son perfectas para todas las situaciones.
  2. Los datos deben optimizarse para el contexto.

Referencia: https://en.wikipedia.org/wiki/Tag_cloud

Publicación traducida automáticamente

Artículo escrito por SumedhKadam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *