Preprocesamiento de texto en Python | conjunto 2

Prerrequisito: Introducción a la PNL , Preprocesamiento de texto en Python | Serie 1 En la publicación anterior , vimos los pasos básicos de preprocesamiento cuando se trabaja con datos textuales. En este artículo, veremos algunas técnicas de preprocesamiento de texto más avanzadas. Podemos usar estas técnicas para obtener más información sobre los datos que … Continue reading «Preprocesamiento de texto en Python | conjunto 2»

PNL | Corpus de texto categorizado

Si tenemos una gran cantidad de datos de texto, entonces uno puede categorizarlos en secciones separadas.  Código #1: Categorización   Python3 # Loading brown corpus from nltk.corpus import brown   brown.categories() Producción :  [‘adventure’, ‘belles_lettres’, ‘editorial’, ‘fiction’, ‘government’, ‘hobbies’, ‘humor’, ‘learned’, ‘lore’, ‘mystery’, ‘news’, ‘religion’, ‘reviews’, ‘romance’, ‘science_fiction’] ¿Cómo categorizar un corpus?  La forma más fácil … Continue reading «PNL | Corpus de texto categorizado»

PNL | Procesamiento de listas en paralelo con execnet

Este artículo presenta un patrón para usar execnet para procesar una lista en paralelo. Es un patrón de función para mapear cada elemento de la lista a un nuevo valor, usando execnet para hacer el mapeo en paralelo. En el código que se proporciona a continuación, los números enteros simplemente se duplican, se puede realizar … Continue reading «PNL | Procesamiento de listas en paralelo con execnet»

PNL | corpus personalizado

¿Qué es un corpus? Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto. Como esta hecho ? NLTK ya define una lista de rutas de datos o directorios en … Continue reading «PNL | corpus personalizado»

PNL | Corpus de lista de palabras

¿Qué es un corpus? Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto. ¿Cómo crear un corpus de lista de palabras? La clase WordListCorpusReader es una de las clases … Continue reading «PNL | Corpus de lista de palabras»

Análisis de sentimiento de texto hindi – Python

Análisis de sentimiento para el idioma índico:   Este artículo muestra cómo usar la biblioteca VADER para realizar el análisis de sentimientos del idioma índico ‘Hindi’.   El análisis de opinión es una métrica que transmite qué tan positivo, negativo o neutral es el texto o los datos. Se realiza en datos textuales para ayudar … Continue reading «Análisis de sentimiento de texto hindi – Python»

Clasificación de emociones usando NRC Lexicon en Python

Muchas veces, para proyectos del mundo real, el reconocimiento de emociones suele ser solo el comienzo del proyecto. Ese tiempo escribiendo un código completo en eso no solo aumentará el tiempo sino que también se obstaculizará la eficiencia.  NRCLexicon es un proyecto pypi aprobado por el MIT de Mark M. Bailey que predice los sentimientos … Continue reading «Clasificación de emociones usando NRC Lexicon en Python»

PNL | Almacenamiento de un diccionario ordenado en Redis

Un diccionario ordenado es como un dictado normal, pero las teclas están ordenadas por una función de ordenación. En el caso de Redis, admite diccionarios ordenados cuyas claves son strings y cuyos valores son puntuaciones de punto flotante. Esta estructura puede ser útil en los casos en que se debe calcular la ganancia de información … Continue reading «PNL | Almacenamiento de un diccionario ordenado en Redis»

Técnicas de Extracción de Características – PNL

Este artículo se centra en las técnicas básicas de extracción de características en NLP para analizar las similitudes entre fragmentos de texto. El procesamiento del lenguaje natural (NLP) es una rama de las ciencias de la computación y el aprendizaje automático que se ocupa de capacitar a las computadoras para que procesen una gran cantidad … Continue reading «Técnicas de Extracción de Características – PNL»

PNL | Etiquetado basado en clasificador

ClassifierBasedPOSTagger clase : Es una subclase de ClassifierBasedTagger que utiliza la técnica de clasificación para etiquetar partes del discurso. De las palabras, se extraen las características y luego se pasan a un clasificador interno. Clasifica las características y devuelve una etiqueta, es decir, una etiqueta de parte del discurso. El detector de características encuentra sufijos … Continue reading «PNL | Etiquetado basado en clasificador»