Procesamiento de texto usando NLP | Lo esencial

Prerrequisito: Introducción a la PNL

En este artículo, vamos a discutir cómo podemos obtener texto de archivos de texto en línea y extraer los datos requeridos de ellos. A los efectos de este artículo, utilizaremos el archivo de texto disponible aquí .

Lo siguiente debe instalarse en el entorno de trabajo actual:

  • biblioteca NLTK
  • biblioteca urllib
  • Biblioteca BeautifulSoup

Paso #1: importa las bibliotecas requeridas

import nltk
from bs4 import BeautifulSoup
from urllib.request import urlopen

Alguna información básica sobre las bibliotecas mencionadas anteriormente:

  • Biblioteca NLTK: La biblioteca nltk es una colección de bibliotecas y programas escritos para el procesamiento del idioma inglés escritos en el lenguaje de programación Python.
  • Biblioteca urllib: esta es una biblioteca de manejo de URL para python. Conoce más al respecto aquí
  • Biblioteca BeautifulSoup: esta es una biblioteca utilizada para extraer datos de documentos HTML y XML.

Paso #2: Para extraer todo el contenido del archivo de texto.

raw = urlopen("https://www.w3.org/TR/PNG/iso_8859-1.txt").read()

Por lo tanto, los datos sin procesar se cargan en la variable sin procesar.

Paso #3: A continuación, procesamos los datos para eliminar cualquier etiqueta html/xml que pueda estar presente en nuestra variable ‘sin procesar’ usando:

raw1 = BeautifulSoup(raw)

Paso #4: Ahora obtenemos el texto presente en la variable ‘sin procesar’.

raw2 = raw1.get_text()

Producción:

Paso #5: A continuación convertimos el texto en palabras.

token = nltk.word_tokenize(raw2)

Salida:

Esto se hace como preprocesamiento para el siguiente paso, donde obtendremos el texto final.

Paso #6: Finalmente, obtenemos nuestro texto final.

text2 = ' '.join(token)

Salida:

 
A continuación se muestra el código completo:

# importing libraries
import nltk
from bs4 import BeautifulSoup
from urllib.request import urlopen
  
# extract all the contents of the text file.
raw = urlopen("https://www.w3.org/TR/PNG/iso_8859-1.txt").read()
  
# remove any html/xml tags
raw1 = BeautifulSoup(raw)
  
#  obtain the text present in ‘raw’
raw2 = raw1.get_text()
  
#  tokenize the text into words.
token = nltk.word_tokenize(raw2)
text2 = ' '.join(token)

Publicación traducida automáticamente

Artículo escrito por noob_coders_ka_baap y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *