Prerrequisito: Introducción a la PNL
En este artículo, vamos a discutir cómo podemos obtener texto de archivos de texto en línea y extraer los datos requeridos de ellos. A los efectos de este artículo, utilizaremos el archivo de texto disponible aquí .
Lo siguiente debe instalarse en el entorno de trabajo actual:
- biblioteca NLTK
- biblioteca urllib
- Biblioteca BeautifulSoup
Paso #1: importa las bibliotecas requeridas
import nltk from bs4 import BeautifulSoup from urllib.request import urlopen
Alguna información básica sobre las bibliotecas mencionadas anteriormente:
- Biblioteca NLTK: La biblioteca nltk es una colección de bibliotecas y programas escritos para el procesamiento del idioma inglés escritos en el lenguaje de programación Python.
- Biblioteca urllib: esta es una biblioteca de manejo de URL para python. Conoce más al respecto aquí
- Biblioteca BeautifulSoup: esta es una biblioteca utilizada para extraer datos de documentos HTML y XML.
Paso #2: Para extraer todo el contenido del archivo de texto.
raw = urlopen("https://www.w3.org/TR/PNG/iso_8859-1.txt").read()
Por lo tanto, los datos sin procesar se cargan en la variable sin procesar.
Paso #3: A continuación, procesamos los datos para eliminar cualquier etiqueta html/xml que pueda estar presente en nuestra variable ‘sin procesar’ usando:
raw1 = BeautifulSoup(raw)
Paso #4: Ahora obtenemos el texto presente en la variable ‘sin procesar’.
raw2 = raw1.get_text()
Producción:
Paso #5: A continuación convertimos el texto en palabras.
token = nltk.word_tokenize(raw2)
Salida:
Esto se hace como preprocesamiento para el siguiente paso, donde obtendremos el texto final.
Paso #6: Finalmente, obtenemos nuestro texto final.
text2 = ' '.join(token)
Salida:
A continuación se muestra el código completo:
# importing libraries import nltk from bs4 import BeautifulSoup from urllib.request import urlopen # extract all the contents of the text file. raw = urlopen("https://www.w3.org/TR/PNG/iso_8859-1.txt").read() # remove any html/xml tags raw1 = BeautifulSoup(raw) # obtain the text present in ‘raw’ raw2 = raw1.get_text() # tokenize the text into words. token = nltk.word_tokenize(raw2) text2 = ' '.join(token)
Publicación traducida automáticamente
Artículo escrito por noob_coders_ka_baap y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA