PNL | Corpus de lista de palabras

¿Qué es un corpus?
Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto.

¿Cómo crear un corpus de lista de palabras?

    La clase WordListCorpusReader es una de las clases de CorpusReader más simples. Eso

  • WordListCorpusReader: es una de las clases de CorpusReader más simples.
  • Esta clase proporciona acceso a los archivos que contienen una lista de palabras o una palabra por línea
  • El archivo de lista de palabras puede ser un archivo CSV o un archivo txt que tenga una palabra en cada línea. En nuestro archivo de lista de palabras
    we have added : 
    geeks
    for
    geeks
    welcomes
    you
    to
    nlp
    articles
  • Dos argumentos para dar
  • ruta del directorio que contiene los archivos
  • lista de nombres de archivos

Código #1: Crear un corpus de lista de palabras

from nltk.corpus.reader import WordListCorpusReader
x = WordListCorpusReader('.', ['C:\\Users\\dell\\Desktop\\wordlist.txt'])
x.words()
  
x.fileids()

Producción :

['geeks', 'for', 'geeks', 'welcomes', 'you', 'to', 'nlp', 'articles']

['C:\\Users\\dell\\Desktop\\wordlist.txt']

Código #2: Acceso sin procesar.

x.raw()
  
from nltk.tokenize import line_tokenize
print ("Wordlist : ", line_tokenize(x.raw()))

Producción :

'geeks\r\nfor\r\ngeeks\r\nwelcomes\r\nyou\r\nto\r\nnlp\r\narticles'

Wordlist : ['geeks', 'for', 'geeks', 'welcomes', 'you', 'to', 'nlp', 'articles']

Código #3: Acceso al corpus de la lista de palabras del nombre

# Accessing pre-defined wordlist
from nltk.corpus import names
  
print ("Path : ", names.fileids())
  
print ("\nNo. of female names : ", len(names.words('female.txt')))
  
print ("\nNo. of male names : ", len(names.words('male.txt')))

Producción :

Path :  ['female.txt', 'male.txt']

No. of female names :  5001

No. of male names :  2943

Código #4: Acceso al corpus de la lista de palabras en inglés

# Accessing pre-defined wordlist
from nltk.corpus import words
  
print ("File : ", words.fileids())
  
print ("\nNo. of female names : ", len(words.words('en-basic')))
  
print ("\nNo. of male names : ", len(words.words('en')))

Producción :

File :  ['en', 'en-basic']

No. of female names :  850

No. of male names :  235886

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *