Python | Tokenizar texto usando TextBlob

TextBlobEl módulo es una biblioteca de Python y ofrece una API simple para acceder a sus métodos y realizar tareas básicas de PNL. Está construido en la parte superior del módulo NLTK.

Instale TextBlob usando los siguientes comandos en la terminal:

pip install -U textblob
python -m textblob.download_corpora

Esto instalará TextBlob y descargará los corpus NLTK necesarios. La instalación anterior llevará bastante tiempo debido a la gran cantidad de tokenizadores, fragmentadores, otros algoritmos y todos los corpus que se descargarán.

Algunos términos que se utilizarán con frecuencia son:

Corpus – Cuerpo de texto, singular. Corpora es el plural de esto.
Léxico – Palabras y sus significados.
Token : cada «entidad» que forma parte de lo que sea que se dividió según las reglas. Por ejemplo, cada palabra es un token cuando una oración se «tokeniza» en palabras. Cada oración también puede ser un token, si tokenizaste las oraciones de un párrafo.

Entonces, básicamente tokenizar implica dividir oraciones y palabras del cuerpo del texto.

# from textblob lib. import TextBlob method
from textblob import TextBlob
  
text = ("Natural language processing (NLP) is a field " + 
       "of computer science, artificial intelligence " + 
       "and computational linguistics concerned with " +  
       "the interactions between computers and human " +  
       "(natural) languages, and, in particular, " +  
       "concerned with programming computers to " + 
       "fruitfully process large natural language " +  
       "corpora. Challenges in natural language " +  
       "processing frequently involve natural " + 
       "language understanding, natural language" +  
       "generation frequently from formal, machine" +  
       "-readable logical forms), connecting language " +  
       "and machine perception, managing human-" + 
       "computer dialog systems, or some combination " +  
       "thereof.")
    
# create a TextBlob object
blob_object = TextBlob(text)
  
# tokenize paragraph into words.
print(" Word Tokenize :\n", blob_object.words)
  
# tokenize paragraph into sentences.
print("\n Sentence Tokenize :\n", blob_object.sentences)

Producción :

Word Tokenize:
[‘Natural’, ‘lenguaje’, ‘procesamiento’, ‘PNL’, ‘es’, ‘a’, ‘campo’, ‘de’, ‘computadora’, ‘ciencia’, ‘artificial’, ‘inteligencia ‘, ‘y’, ‘computacional’, ‘lingüística’, ‘preocupado’, ‘con’, ‘el’, ‘interacciones’, ‘entre’, ‘computadoras’, ‘y’, ‘humano’, ‘natural’, ‘lenguajes’, ‘y’, ‘en’, ‘particular’, ‘preocupado’, ‘con’, ‘programación’, ‘computadoras’, ‘a’, ‘fructíferamente’, ‘proceso’, ‘grande’, ‘natural ‘, ‘lenguaje’, ‘corpora’, ‘Desafíos’, ‘en’, ‘natural’, ‘lenguaje’, ‘procesamiento’, ‘frecuentemente’, ‘involucran’, ‘natural’, ‘lenguaje’, ‘comprensión’, ‘natural’, ‘generación de lenguaje’, ‘frecuentemente’, ‘de’, ‘formal’, ‘legible por máquina’, ‘lógico’, ‘formas’, ‘conexión’, ‘lenguaje’, ‘y’, ‘máquina’, ‘percepción’, ‘administración’, ‘humano-computadora’, ‘diálogo’, ‘sistemas’, ‘o’, ‘algunos’, ‘combinación’, ‘de los mismos’]

Frase Tokenize:
[Sentencia («El procesamiento del lenguaje natural (NLP) es un campo de la informática, la inteligencia artificial y la lingüística computacional que se ocupa de las interacciones entre las computadoras y los lenguajes humanos (naturales) y, en particular, se ocupa de programar computadoras para procesar de manera fructífera grandes corpus de lenguaje natural”), Oración (“Los desafíos en el procesamiento del lenguaje natural involucran con frecuencia la comprensión del lenguaje natural, la generación del lenguaje natural con frecuencia a partir de formas lógicas formales legibles por máquina), la conexión del lenguaje y la percepción de la máquina, la gestión de sistemas de diálogo humano-computadora, o alguna combinación de los mismos.”)]

Publicación traducida automáticamente

Artículo escrito por ankthon y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta