PNL | Parte del discurso etiquetada – corpus de palabras

¿Qué es el etiquetado de parte del discurso (POS)?
Es un proceso de convertir una oración en formas: lista de palabras, lista de tuplas (donde cada tupla tiene una forma (palabra, etiqueta)). La etiqueta en caso de es una etiqueta de parte del discurso e indica si la palabra es un sustantivo, un adjetivo, un verbo, etc.

Ejemplo de corpus etiquetado como parte del discurso (POS)

The/at-tl expense/nn and/cc time/nn involved/vbn are/ber astronomical/jj ./.

El formato de un corpus etiquetado tiene la forma palabra/etiqueta . Cada palabra tiene una etiqueta que indica su POS. Por ejemplo, nn se refiere a un sustantivo, vb es un verbo.

Código #1: Creando un TaggedCorpusReader. para palabras

Python3

# Using TaggedCorpusReader
from nltk.corpus.reader import TaggedCorpusReader
   
# initializing
x = TaggedCorpusReader('.', r'.*\.pos')
   
words = x.words()
print ("Words : \n", words)
   
tag_words = x.tagged_words()
print ("\ntag_words : \n", tag_words)

Producción :

Words : 
['The', 'expense', 'and', 'time', 'involved', 'are', ...]

tag_words : 
[('The', 'AT-TL'), ('expense', 'NN'), ('and', 'CC'), ...]

Código #2: Para oración

Python3

tagged_sent = x.tagged_sents()
print ("tagged_sent : \n", tagged_sent)

Producción :

tagged_sent : 
[[('The', 'AT-TL'), ('expense', 'NN'), ('and', 'CC'), ('time', 'NN'),
('involved', 'VBN'), ('are', 'BER'), ('astronomical', 'JJ'), ('.', '.')]]

Código #3: Para párrafos

Python3

para = x.para()
print ("para : \n", para)
   
tagged_para = x.tagged_paras()
print ("\ntagged_paras : \n", tagged_paras)

Producción :

para: 
[[['The', 'expense', 'and', 'time', 'involved', 'are', 'astronomical', '.']]]

tagged_paras : 
[[[('The', 'AT-TL'), ('expense', 'NN'), ('and', 'CC'), ('time', 'NN'),
('involved', 'VBN'), ('are', 'BER'), ('astronomical', 'JJ'), ('.', '.')]]]

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Python3

Python3

Python3

Deja una respuesta Cancelar la respuesta