PNL | Parte del discurso etiquetada – corpus de palabras

¿Qué es el etiquetado de parte del discurso (POS)? Es un proceso de convertir una oración en formas: lista de palabras, lista de tuplas (donde cada tupla tiene una forma (palabra, etiqueta)). La etiqueta en caso de es una etiqueta de parte del discurso e indica si la palabra es un sustantivo, un adjetivo, un verbo, … Continue reading «PNL | Parte del discurso etiquetada – corpus de palabras»

Ajuste fino del modelo BERT para análisis de sentimiento

Google creó un enfoque de aprendizaje automático basado en transformadores para el procesamiento previo del lenguaje natural llamado Representaciones de codificador bidireccional de transformadores. Tiene una gran cantidad de parámetros, por lo tanto, entrenarlo en un pequeño conjunto de datos conduciría a un sobreajuste. Es por eso que usamos un modelo BERT pre-entrenado que ha … Continue reading «Ajuste fino del modelo BERT para análisis de sentimiento»

PNL | Synsets para una palabra en WordNet

WordNet es la base de datos léxica, es decir, un diccionario para el idioma inglés, diseñado específicamente para el procesamiento del lenguaje natural. Synset es un tipo especial de interfaz simple que está presente en NLTK para buscar palabras en WordNet. Las instancias Synset son las agrupaciones de palabras sinónimas que expresan el mismo concepto. … Continue reading «PNL | Synsets para una palabra en WordNet»

Python | Codificación de caracteres

Encontrar el texto que tiene una codificación de caracteres no estándar es un paso muy común en el procesamiento de texto. Idealmente, todo el texto habría sido de codificación utf-8 o ASCII, pero es posible que este no sea siempre el caso. Por lo tanto, en los casos en que no se conoce la codificación, dicho … Continue reading «Python | Codificación de caracteres»

Procesamiento del lenguaje natural usando Polyglot – Introducción

Este artículo explica acerca de un paquete NLP de python conocido como Rami Al-Rfou. Consta de un montón de características tales como    Detección de idioma (196 idiomas) Tokenización (165 Idiomas) Reconocimiento de entidad nombrada (40 idiomas) Etiquetado de parte del discurso (16 idiomas) Análisis de sentimiento (136 idiomas) y muchos más Primero, instalemos algunos … Continue reading «Procesamiento del lenguaje natural usando Polyglot – Introducción»

PNL | Singularización de sustantivos en plural e intercambio de frases infinitas

Entendamos esto con un ejemplo: ¿Nuestro hijo está entrenando lo suficiente? ¿Nuestro hijo está entrenando lo suficiente? El verbo ‘es’ solo se puede usar con sustantivos singulares. Para los sustantivos en plural, usamos ‘are’. Este problema es muy común en el mundo real y podemos corregir este error creando asignaciones de corrección de verbos que … Continue reading «PNL | Singularización de sustantivos en plural e intercambio de frases infinitas»

PNL | Dividir y fusionar fragmentos

Clase SplitRule: divide un fragmento según el patrón de división especificado para el propósito. Se especifica como <NN.*>}{<.*>, es decir, dos llaves opuestas rodeadas por un patrón a cada lado. Clase MergeRule: fusiona dos fragmentos en función del final del primer fragmento y el comienzo del segundo fragmento. Se especifica como <NN.*>{}<.*>, es decir, llaves … Continue reading «PNL | Dividir y fusionar fragmentos»

PNL | Reglas de fragmentación

A continuación se detallan los pasos necesarios para la fragmentación:   Conversión de oración a un árbol plano.   Creación de string Chunk usando este árbol. Creación de RegexpChunkParser analizando la gramática usando RegexpParser. Aplicar la regla de fragmento creada a ChunkString que coincide con la oración en un fragmento.   Dividir el fragmento más grande en un … Continue reading «PNL | Reglas de fragmentación»

Incrustación de Word previamente entrenada usando Glove en modelos NLP

En este artículo, veremos la incrustación de Word preentrenada usando Glove en modelos NLP usando Python. incrustación de palabras En los modelos de PNL, tratamos con textos que son legibles y comprensibles para los humanos. Pero la máquina no entiende de textos, sólo entiende de números. Por lo tanto, la incrustación de palabras es la … Continue reading «Incrustación de Word previamente entrenada usando Glove en modelos NLP»

Python | Etiquetado de punto de venta y lematización con spaCy

spaCy es una de las mejores bibliotecas de análisis de texto. spaCy sobresale en tareas de extracción de información a gran escala y es uno de los más rápidos del mundo. También es la mejor manera de preparar el texto para el aprendizaje profundo. spaCy es mucho más rápido y preciso que NLTKTagger y TextBlob. … Continue reading «Python | Etiquetado de punto de venta y lematización con spaCy»