¿Qué es un corpus?
Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto.
¿Cómo crear un corpus de lista de palabras?
- La clase WordListCorpusReader es una de las clases de CorpusReader más simples. Eso
- WordListCorpusReader: es una de las clases de CorpusReader más simples.
- Esta clase proporciona acceso a los archivos que contienen una lista de palabras o una palabra por línea
- El archivo de lista de palabras puede ser un archivo CSV o un archivo txt que tenga una palabra en cada línea. En nuestro archivo de lista de palabras
we have added : geeks for geeks welcomes you to nlp articles
- Dos argumentos para dar
- ruta del directorio que contiene los archivos
- lista de nombres de archivos
Código #1: Crear un corpus de lista de palabras
from nltk.corpus.reader import WordListCorpusReader x = WordListCorpusReader('.', ['C:\\Users\\dell\\Desktop\\wordlist.txt']) x.words() x.fileids()
Producción :
['geeks', 'for', 'geeks', 'welcomes', 'you', 'to', 'nlp', 'articles'] ['C:\\Users\\dell\\Desktop\\wordlist.txt']
Código #2: Acceso sin procesar.
x.raw() from nltk.tokenize import line_tokenize print ("Wordlist : ", line_tokenize(x.raw()))
Producción :
'geeks\r\nfor\r\ngeeks\r\nwelcomes\r\nyou\r\nto\r\nnlp\r\narticles' Wordlist : ['geeks', 'for', 'geeks', 'welcomes', 'you', 'to', 'nlp', 'articles']
Código #3: Acceso al corpus de la lista de palabras del nombre
# Accessing pre-defined wordlist from nltk.corpus import names print ("Path : ", names.fileids()) print ("\nNo. of female names : ", len(names.words('female.txt'))) print ("\nNo. of male names : ", len(names.words('male.txt')))
Producción :
Path : ['female.txt', 'male.txt'] No. of female names : 5001 No. of male names : 2943
Código #4: Acceso al corpus de la lista de palabras en inglés
# Accessing pre-defined wordlist from nltk.corpus import words print ("File : ", words.fileids()) print ("\nNo. of female names : ", len(words.words('en-basic'))) print ("\nNo. of male names : ", len(words.words('en')))
Producción :
File : ['en', 'en-basic'] No. of female names : 850 No. of male names : 235886
Publicación traducida automáticamente
Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA