PNL | corpus personalizado

¿Qué es un corpus?
Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto.

Como esta hecho ?
NLTK ya define una lista de rutas de datos o directorios en nltk.data.path . Nuestro corpus personalizado debe estar presente en cualquiera de estas rutas dadas para que NLTK pueda encontrarlo.
También podemos crear un directorio nltk_data personalizado en nuestro directorio de inicio y verificar que esté en la lista de rutas conocidas especificadas por nltk.data.path.

Código #1: Crear un directorio personalizado y verificar.

# importing libraries
import os, os.path
  
# using the given path
path = os.path.expanduser('~/nltk_data')
  
# checking
if not os.path.exists(path):
    os.mkdir(path)
      
print ("Does path exists : ", os.path.exists(path))
  
  
import nltk.data
print ("\nDoes path exists in nltk : ", 
       path in nltk.data.path)

Producción :

Does path exists : True
Does path exists in nltk : True

Código #2: Creación de un archivo de lista de palabras.

# loading libraries
import nltk.data
  
nltk.data.load('corpora/cookbook/word_file.txt', format ='raw')

Producción :

b'nltk\n'

¿Cómo funciona todo esto?

  • nltk.data.load() reconoce los formatos: ‘raw’, ‘pickle’ y ‘yaml’.
  • Adivina el formato basado en la extensión del archivo, si no se proporciona el formato.
  • Como en el código anterior, es necesario especificar el formato ‘sin formato’.
  • Como en el código anterior, es necesario especificar el formato ‘sin formato’.
  • Si el archivo termina en ‘.yaml’, no es necesario especificar el formato.

Código #3: Cómo cargar un archivo YAML

import nltk.data
  
# loading file using the path
nltk.data.load('corpora/cookbook/synonyms.yaml')

Producción :

{'bday': 'birthday'}

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *