PNL | Personalización usando Corpus Reader etiquetado

¿Cómo podemos utilizar Tagged Corpus Reader? 
 

  • Personalización del tokenizador de palabras
  • Personalización del tokenizador de oraciones
  • Personalización del lector de bloques de párrafos
  • Personalización del separador de etiquetas
  • Conversión de etiquetas en un conjunto de etiquetas universal

Código n.° 1: personalización del tokenizador de palabras 
 

Python3

# Loading the libraries
from nltk.tokenize import SpaceTokenizer
from nltk.corpus.reader import TaggedCorpusReader
 
x = TaggedCorpusReader('.', r'.*\.pos',
                       word_tokenizer = SpaceTokenizer())
 
x.words()

Producción : 
 

['The', 'expense', 'and', 'time', 'involved', 'are', ...]

Código #2: Para oración 
 

Python3

# Loading the libraries
from nltk.tokenize import LineTokenizer
from nltk.corpus.reader import TaggedCorpusReader
 
x = TaggedCorpusReader('.', r'.*\.pos',
                       sent_tokenizer = LineTokenizer())
 
x.sents()

Producción : 
 

[['The', 'expense', 'and', 'time', 'involved', 'are', 'astronomical', '.']]

Párrafo de personalización 
 

  • Suponga que los párrafos se dividen por líneas en blanco
  • Hecho con la función para_block_reader, que es nltk.corpus.reader.util.read_blankline_block
  • Hay otros lectores de bloques presentes en nltk.corpus.reader.util , cuyo propósito es leer bloques de texto de una secuencia.

Personalización del separador de etiquetas 
 

  • Si no se usa ‘/’ como separador de palabra/etiqueta, se puede pasar una string alternativa a TaggedCorpusReader para sep.
  • El valor predeterminado es sep=’/’ , pero si uno quiere dividir palabras y etiquetas con ‘|’, como ‘word|tag’, entonces sep=’|’ se pasa en .

Conversión de etiquetas en un conjunto de etiquetas universal Conjunto de  
etiquetas: es una lista de etiquetas POS utilizadas por uno o más corpus. 
Conjunto de etiquetas universal: es un conjunto de etiquetas simplificado y condensado compuesto por solo 12 etiquetas de parte del discurso
. Código n.º 3: asigna etiquetas de corpus al conjunto de etiquetas universal. 
 

Python3

from nltk.corpus.reader import TaggedCorpusReader
 
x = TaggedCorpusReader('.', r'.*\.pos', tagset ='en-brown')
x.tagged_words(tagset ='universal')

Producción : 
 

[('The', 'DET'), ('expense', 'NOUN'), ('and', 'CONJ'), ...] 

Código n.º 4: asigna etiquetas de corpus al conjunto de etiquetas universal 
 

Python3

from nltk.corpus.reader import TaggedCorpusReader
from nltk.corpus import treebank
 
treebank.tagged_words()
 
treebank.tagged_words(tagset ='universal')
 
treebank.tagged_words(tagset ='brown')

Producción : 
 

[('Pierre', 'NNP'), ('Vinken', 'NNP'), (', ', ', '), ...]

[('Pierre', 'NOUN'), ('Vinken', 'NOUN'), (', ', '.'), …]

[('Pierre', 'UNK'), ('Vinken', 'UNK'), (', ', 'UNK'), ...]

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *