PNL | Chunking y chinking con RegEx

La extracción de fragmentos o el análisis parcial es un proceso de extracción significativa de frases cortas de la oración (etiquetadas como parte del discurso). Los fragmentos se componen de palabras y los tipos de palabras se definen utilizando las etiquetas de parte del discurso. Incluso se puede definir un patrón o palabras que no pueden … Continue reading «PNL | Chunking y chinking con RegEx»

Incrustaciones de palabras en PNL

¿Qué son las incrustaciones de palabras? Es un enfoque para representar palabras y documentos. Word Embedding o Word Vector es una entrada de vector numérico que representa una palabra en un espacio de menor dimensión. Permite que palabras con un significado similar tengan una representación similar. También pueden aproximar el significado. Un vector de palabras … Continue reading «Incrustaciones de palabras en PNL»

Entendiendo el Análisis Semántico – PNL

Introducción al Análisis Semántico El análisis semántico es un subcampo del procesamiento del lenguaje natural (PNL) que intenta comprender el significado del lenguaje natural. Comprender el lenguaje natural puede parecer un proceso sencillo para nosotros como humanos. Sin embargo, debido a la gran complejidad y subjetividad que implica el lenguaje humano, interpretarlo es una tarea … Continue reading «Entendiendo el Análisis Semántico – PNL»

Formación de bigramas a partir de una lista de Python dada

Cuando nos ocupamos de la clasificación de texto, a veces necesitamos hacer cierto tipo de procesamiento de lenguaje natural y, por lo tanto, a veces necesitamos formar bigramas de palabras para el procesamiento. En caso de ausencia de la biblioteca adecuada, es difícil y tener que hacer lo mismo siempre es bastante útil. Analicemos ciertas … Continue reading «Formación de bigramas a partir de una lista de Python dada»

Explicación del Modelo BERT – PNL

BERT (Representaciones de codificador bidireccional de transformadores) es un modelo de procesamiento de lenguaje natural propuesto por investigadores de Google Research en 2018. Cuando se propuso, logró una precisión de vanguardia en muchas tareas de NLP y NLU, como: Evaluación general de comprensión del lenguaje Conjunto de datos Q/A de Stanford SQuAD v1.1 y v2.0 … Continue reading «Explicación del Modelo BERT – PNL»

PNL | Etiquetado Regex y Affix

La coincidencia de expresiones regulares se utiliza para etiquetar palabras. Considere el ejemplo, los números pueden coincidir con \d para asignar la etiqueta CD (que se refiere a un número cardinal). O uno puede hacer coincidir los patrones de palabras conocidos, como el sufijo «ing».  Entendiendo el concepto –  RegexpTagger es una subclase de SequentialBackoffTagger. … Continue reading «PNL | Etiquetado Regex y Affix»

PNL | Colocaciones de palabras

Las colocaciones son dos o más palabras que tienden a aparecer juntas con frecuencia, por ejemplo, Estados Unidos . Hay muchas otras palabras que pueden venir después de United, como United Kingdom y United Airlines. Como ocurre con muchos aspectos del procesamiento del lenguaje natural, el contexto es muy importante. Y para las colocaciones, el … Continue reading «PNL | Colocaciones de palabras»

PNL | Árbol profundo aplanado

Algunos de los corpus que usamos suelen ser árboles profundos de frases anidadas. Pero trabajar en árboles tan profundos es un trabajo tedioso para entrenar al chunker. Como el análisis de etiquetas IOB no está diseñado para fragmentos anidados. Entonces, para usar estos árboles para el entrenamiento de chunker, debemos aplanarlos. Bueno, los POS (parte … Continue reading «PNL | Árbol profundo aplanado»

Incrustación de palabras usando Universal Sentence Encoder en Python

A diferencia de las técnicas de incrustación de palabras en las que representa palabras en vectores, en Incrustaciones de oraciones, la oración completa o el texto junto con su información semántica se asigna a vectores de números reales. Esta técnica permite comprender y procesar información útil de un texto completo, que luego se puede utilizar … Continue reading «Incrustación de palabras usando Universal Sentence Encoder en Python»

Python – Preprocesamiento de texto tamil

El preprocesamiento es la parte principal del procesamiento del lenguaje natural. Para clasificar cualquier texto con alta precisión, los datos limpios juegan un papel importante. Entonces, el primer paso en NLP antes de analizar o clasificar es el preprocesamiento de datos. Muchas bibliotecas de Python admiten el preprocesamiento para el idioma inglés. Pero para el … Continue reading «Python – Preprocesamiento de texto tamil»