¿Qué es un corpus?
Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto.
Como esta hecho ?
NLTK ya define una lista de rutas de datos o directorios en nltk.data.path . Nuestro corpus personalizado debe estar presente en cualquiera de estas rutas dadas para que NLTK pueda encontrarlo.
También podemos crear un directorio nltk_data personalizado en nuestro directorio de inicio y verificar que esté en la lista de rutas conocidas especificadas por nltk.data.path.
Código #1: Crear un directorio personalizado y verificar.
# importing libraries import os, os.path # using the given path path = os.path.expanduser('~/nltk_data') # checking if not os.path.exists(path): os.mkdir(path) print ("Does path exists : ", os.path.exists(path)) import nltk.data print ("\nDoes path exists in nltk : ", path in nltk.data.path)
Producción :
Does path exists : True Does path exists in nltk : True
Código #2: Creación de un archivo de lista de palabras.
# loading libraries import nltk.data nltk.data.load('corpora/cookbook/word_file.txt', format ='raw')
Producción :
b'nltk\n'
¿Cómo funciona todo esto?
- nltk.data.load() reconoce los formatos: ‘raw’, ‘pickle’ y ‘yaml’.
- Adivina el formato basado en la extensión del archivo, si no se proporciona el formato.
- Como en el código anterior, es necesario especificar el formato ‘sin formato’.
- Como en el código anterior, es necesario especificar el formato ‘sin formato’.
- Si el archivo termina en ‘.yaml’, no es necesario especificar el formato.
Código #3: Cómo cargar un archivo YAML
import nltk.data # loading file using the path nltk.data.load('corpora/cookbook/synonyms.yaml')
Producción :
{'bday': 'birthday'}
Publicación traducida automáticamente
Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA