PNL | Chunking y chinking con RegEx

La extracción de fragmentos o el análisis parcial es un proceso de extracción significativa de frases cortas de la oración (etiquetadas como parte del discurso). Los fragmentos se componen de palabras y los tipos de palabras se definen utilizando las etiquetas de parte del discurso. Incluso se puede definir un patrón o palabras que no pueden … Continue reading «PNL | Chunking y chinking con RegEx»

PNL | Etiquetado de retroceso para combinar etiquetadores

¿Qué es el etiquetado de parte del discurso (POS)? Es un proceso de convertir una oración en formas: lista de palabras, lista de tuplas (donde cada tupla tiene una forma (palabra, etiqueta)). La etiqueta en caso de es una etiqueta de parte del discurso e indica si la palabra es un sustantivo, un adjetivo, un … Continue reading «PNL | Etiquetado de retroceso para combinar etiquetadores»

PNL | Extracción de etiquetas de ubicación

Se pueden usar diferentes tipos de subclases ChunkParserI para identificar los fragmentos LOCATION. Ya que utiliza el corpus de diccionarios geográficos para identificar palabras de ubicación. El corpus del nomenclátor es un WordListCorpusReader classque contiene las siguientes palabras de ubicación: Nombres de países Estados de EE. UU. y abreviaturas estados mexicanos Principales ciudades de EE. … Continue reading «PNL | Extracción de etiquetas de ubicación»

PNL | Chunker basado en Tagger de entrenamiento | conjunto 2

corpus Conll2000 define los fragmentos utilizando etiquetas IOB. Especifica dónde comienza y termina el fragmento, junto con sus tipos. Se puede entrenar un etiquetador de parte del discurso en estas etiquetas IOB para potenciar aún más una subclase ChunkerI. Primero, utilizando el método de corpus chunked_sents() , se obtiene un árbol y luego se transforma … Continue reading «PNL | Chunker basado en Tagger de entrenamiento | conjunto 2»

PNL | Árbol profundo aplanado

Algunos de los corpus que usamos suelen ser árboles profundos de frases anidadas. Pero trabajar en árboles tan profundos es un trabajo tedioso para entrenar al chunker. Como el análisis de etiquetas IOB no está diseñado para fragmentos anidados. Entonces, para usar estos árboles para el entrenamiento de chunker, debemos aplanarlos. Bueno, los POS (parte … Continue reading «PNL | Árbol profundo aplanado»

PNL | Transformación de fragmentos de árbol a texto y enstringmiento de fragmentos

Podemos volver a convertir un árbol o subárbol en una oración o string de fragmentos. Para entender cómo hacerlo, el siguiente código usa el primer árbol del corpus treebank_chunk. Código #1: Unir las palabras en árbol con espacio. # Loading library     from nltk.corpus import treebank_chunk    # tree tree = treebank_chunk.chunked_sents()[0]    print («Tree : … Continue reading «PNL | Transformación de fragmentos de árbol a texto y enstringmiento de fragmentos»

PNL | Chunker basado en Tagger de entrenamiento | Serie 1

Entrenar un fragmentador es una alternativa a la especificación manual de patrones de fragmentación de expresiones regulares (regex). Pero el entrenamiento manual para especificar la expresión es una tarea tediosa, ya que sigue el método de acierto y prueba para obtener los patrones exactos correctos. Por lo tanto, los datos de corpus existentes se pueden … Continue reading «PNL | Chunker basado en Tagger de entrenamiento | Serie 1»

PNL | Leacock Chordorow (LCH) y similitud de ruta para Synset

Similitud basada en ruta: es una medida de similitud que encuentra la distancia que es la longitud de la ruta más corta entre dos synsets. Leacock Chordorow (LCH): es una medida de similitud que es una versión extendida de la similitud basada en rutas, ya que incorpora la profundidad de la taxonomía. Por lo tanto, … Continue reading «PNL | Leacock Chordorow (LCH) y similitud de ruta para Synset»

PNL | Combinación de etiquetadores Ngram

NgramTagger tiene 3 subclases UnigramTagger BigramTagger TrigramTagger La subclase BigramTagger usa la etiqueta anterior como parte de su contexto . La subclase TrigramTagger usa las dos etiquetas anteriores como parte de su contexto. ngram : es una subsecuencia de n elementos. Idea de las subclases de NgramTagger: Al observar las palabras anteriores y las etiquetas … Continue reading «PNL | Combinación de etiquetadores Ngram»

PNL | Cómo funciona la tokenización de texto, oración, palabras

El procesamiento del lenguaje natural (NLP) es un subcampo de la informática, la inteligencia artificial, la ingeniería de la información y la interacción humano-computadora. Este campo se enfoca en cómo programar computadoras para procesar y analizar grandes cantidades de datos de lenguaje natural. Es difícil de realizar ya que el proceso de lectura y comprensión … Continue reading «PNL | Cómo funciona la tokenización de texto, oración, palabras»