Tokenizar texto usando NLTK en python

Para ejecutar el siguiente programa de python, el kit de herramientas de lenguaje natural (NLTK) debe estar instalado en su sistema.
El módulo NLTK es un kit de herramientas masivo, destinado a ayudarlo con toda la metodología de Procesamiento del lenguaje natural (NLP).
Para instalar NLTK, ejecute los siguientes comandos en su terminal.

  • sudo pip instalar nltk
  • Luego, ingrese el shell de python en su terminal simplemente escribiendo python
  • Escriba importar nltk
  • nltk.download(‘todos’)

La instalación anterior llevará bastante tiempo debido a la gran cantidad de tokenizadores, fragmentadores, otros algoritmos y todos los corpus que se descargarán.

    Algunos términos que se utilizarán con frecuencia son:

  • Corpus – Cuerpo de texto, singular. Corpora es el plural de esto.
  • Léxico – Palabras y sus significados.
  • Token : cada «entidad» que forma parte de lo que sea que se dividió según las reglas. Por ejemplo, cada palabra es un token cuando una oración se «tokeniza» en palabras. Cada oración también puede ser un token, si tokenizaste las oraciones de un párrafo.
  • Entonces, básicamente tokenizar implica dividir oraciones y palabras del cuerpo del texto.

    # import the existing word and sentence tokenizing 
    # libraries
    from nltk.tokenize import sent_tokenize, word_tokenize
      
    text = "Natural language processing (NLP) is a field " + \
           "of computer science, artificial intelligence " + \
           "and computational linguistics concerned with " + \
           "the interactions between computers and human " + \
           "(natural) languages, and, in particular, " + \
           "concerned with programming computers to " + \
           "fruitfully process large natural language " + \
           "corpora. Challenges in natural language " + \
           "processing frequently involve natural " + \
           "language understanding, natural language" + \
           "generation frequently from formal, machine" + \
           "-readable logical forms), connecting language " + \
           "and machine perception, managing human-" + \
           "computer dialog systems, or some combination " + \
           "thereof."
      
    print(sent_tokenize(text))
    print(word_tokenize(text))`

    SALIDA
    [‘El procesamiento del lenguaje natural (NLP) es un campo de la informática, la inteligencia artificial y la lingüística computacional que se ocupa de las interacciones entre las computadoras y los lenguajes humanos (naturales) y, en particular, se ocupa de la programación de computadoras para procesar de manera fructífera grandes corpus de lenguaje natural .’, ‘Los desafíos en el procesamiento del lenguaje natural involucran con frecuencia la comprensión del lenguaje natural, la generación del lenguaje natural (frecuentemente a partir de formas lógicas formales legibles por máquina), la conexión del lenguaje y la percepción de la máquina, la gestión de sistemas de diálogo humano-computadora, o alguna combinación de estos.’]
    [‘Natural’, ‘lenguaje’, ‘procesamiento’, ‘(‘, ‘PNL’, ‘)’, ‘es’, ‘un’, ‘campo’, ‘de’, ‘computadora’, ‘ciencia’, ‘ ,’, ‘artificial’, ‘inteligencia’, ‘y’, ‘computacional’, ‘lingüística’, ‘preocupado’, ‘con’, ‘el’, ‘interacciones’, ‘entre’, ‘computadoras’, ‘y’ , ‘humano’, ‘(‘, ‘natural’, ‘)’, ‘lenguas’, ‘,’, ‘y’, ‘,’, ‘en’, ‘particular’, ‘,’, ‘interesado’, ‘ con’, ‘programación’, ‘computadoras’, ‘a’, ‘fructíferamente’, ‘proceso’, ‘grande’, ‘natural’, ‘lenguaje’, ‘corpora’, ‘.’, ‘Desafíos’, ‘en’ , ‘natural’, ‘lenguaje’, ‘procesamiento’, ‘frecuentemente’, ‘involucrar’, ‘natural’, ‘lenguaje’, ‘comprensión’, ‘,’, ‘natural’, ‘lenguaje’, ‘generación’, ‘ (‘, ‘frecuentemente’, ‘de’, ‘formal’, ‘,’, ‘legible por máquina’, ‘lógico’, ‘formularios’, ‘)’, ‘,’, ‘conectando’, ‘lenguaje’, ‘ y’, ‘máquina’, ‘percepción’, ‘,’, ‘gestión’, ‘humano-computadora’, ‘diálogo’, ‘sistemas’, ‘,’, ‘o’, ‘algunos’,’combinación’, ‘de los mismos’, ‘.’]

    Entonces ahí, hemos creado tokens, que son oraciones inicialmente y palabras después.

    Este artículo es una contribución de Pratima Upadhyay . Si le gusta GeeksforGeeks y le gustaría contribuir, también puede escribir un artículo usando contribuya.geeksforgeeks.org o envíe su artículo por correo a contribuya@geeksforgeeks.org. Vea su artículo que aparece en la página principal de GeeksforGeeks y ayude a otros Geeks.

    Escriba comentarios si encuentra algo incorrecto o si desea compartir más información sobre el tema tratado anteriormente.

Publicación traducida automáticamente

Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *