¿Qué es el etiquetado de parte del discurso (POS)? Es un proceso de convertir una oración en formas: lista de palabras, lista de tuplas (donde cada tupla tiene una forma (palabra, etiqueta) ). La etiqueta en caso de es una etiqueta de parte del discurso e indica si la palabra es un sustantivo, un adjetivo, un verbo, etc. El etiquetado predeterminado es un paso básico para el etiquetado de partes del discurso. Se realiza utilizando la clase DefaultTagger. La clase DefaultTagger toma ‘etiqueta’ como único argumento. NN es la etiqueta de un sustantivo singular. DefaultTagger es más útil cuando se pone a trabajar con la etiqueta de parte del discurso más común. por eso se recomienda una etiqueta de nombre. Código #1: ¿Cómo funciona?
Python3
# Loading Libraries from nltk.tag import DefaultTagger # Defining Tag tagging = DefaultTagger('NN') # Tagging tagging.tag(['Hello', 'Geeks'])
Producción :
[('Hello', 'NN'), ('Geeks', 'NN')]
Cada etiquetador tiene un método de etiqueta() que toma una lista de tokens (generalmente una lista de palabras producidas por un tokenizador de palabras), donde cada token es una sola palabra. tag() devuelve una lista de tokens etiquetados: una tupla de (palabra, etiqueta) . ¿Cómo funciona DefaultTagger? Es una subclase de SequentialBackoffTagger e implementa el método choose_tag(), que tiene tres argumentos.
- lista de fichas
- índice del token actual, para elegir la etiqueta.
- lista de las etiquetas anteriores
Código #2: Etiquetado de oraciones
Python3
# Loading Libraries from nltk.tag import DefaultTagger # Defining Tag tagging = DefaultTagger('NN') tagging.tag_sents([['welcome', 'to', '.'], ['Geeks', 'for', 'Geeks']])
Producción :
[[('welcome', 'NN'), ('to', 'NN'), ('.', 'NN')], [('Geeks', 'NN'), ('for', 'NN'), ('Geeks', 'NN')]]
Nota: cada etiqueta en la lista de oraciones etiquetadas (en el código anterior) es NN ya que hemos usado la clase DefaultTagger. Código #3: Ilustrando cómo desetiquetar.
Python3
from nltk.tag import untag untag([('Geeks', 'NN'), ('for', 'NN'), ('Geeks', 'NN')])
Producción :
['Geeks', 'for', 'Geeks']
Publicación traducida automáticamente
Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA