PNL | Etiquetado Regex y Affix

La coincidencia de expresiones regulares se utiliza para etiquetar palabras. Considere el ejemplo, los números pueden coincidir con \d para asignar la etiqueta CD (que se refiere a un número cardinal). O uno puede hacer coincidir los patrones de palabras conocidos, como el sufijo «ing».  Entendiendo el concepto –  RegexpTagger es una subclase de SequentialBackoffTagger. … Continue reading «PNL | Etiquetado Regex y Affix»

PNL | Colocaciones de palabras

Las colocaciones son dos o más palabras que tienden a aparecer juntas con frecuencia, por ejemplo, Estados Unidos . Hay muchas otras palabras que pueden venir después de United, como United Kingdom y United Airlines. Como ocurre con muchos aspectos del procesamiento del lenguaje natural, el contexto es muy importante. Y para las colocaciones, el … Continue reading «PNL | Colocaciones de palabras»

PNL | Personalización usando Corpus Reader etiquetado

¿Cómo podemos utilizar Tagged Corpus Reader?   Personalización del tokenizador de palabras Personalización del tokenizador de oraciones Personalización del lector de bloques de párrafos Personalización del separador de etiquetas Conversión de etiquetas en un conjunto de etiquetas universal Código n.° 1: personalización del tokenizador de palabras   Python3 # Loading the libraries from nltk.tokenize import SpaceTokenizer from … Continue reading «PNL | Personalización usando Corpus Reader etiquetado»

Python | Identificación de género por nombre usando NLTK

Natural Language Toolkit (NLTK) es una plataforma utilizada para crear programas para el análisis de texto. Podemos observar que los nombres masculinos y femeninos tienen algunas características distintivas. Es probable que los nombres que terminan en a, e e i sean femeninos, mientras que los nombres que terminan en k, o, r, s y t … Continue reading «Python | Identificación de género por nombre usando NLTK»

PNL | Extracción de nombres propios

La fragmentación de todos los nombres propios (etiquetados con NNP) es una forma muy sencilla de realizar la extracción de entidades nombradas. Se puede crear una gramática simple que combine todos los nombres propios en un fragmento de NOMBRE usando la clase RegexpParser. Luego, podemos probar esto en la primera oración etiquetada de treebank_chunk para … Continue reading «PNL | Extracción de nombres propios»

Python | NLTK nltk.tokenize.ConditionalFreqDist()

Con la ayuda del nltk.tokenize.ConditionalFreqDist()método, podemos contar la frecuencia de las palabras en una oración usando el tokenize.ConditionalFreqDist()método. Sintaxis: tokenize.ConditionalFreqDist()Retorno: Retorna la distribución de frecuencia de las palabras en un diccionario. Ejemplo #1: En este ejemplo, podemos ver que al usar el tokenize.ConditionalFreqDist()método, podemos contar la aparición de palabras en una oración. # import ConditionalFreqDist() … Continue reading «Python | NLTK nltk.tokenize.ConditionalFreqDist()»

PNL | WordNet para etiquetar

WordNet es la base de datos léxica, es decir, un diccionario para el idioma inglés, diseñado específicamente para el procesamiento del lenguaje natural. Código #1: Crear clase para buscar palabras en WordNet. from nltk.tag import SequentialBackoffTagger from nltk.corpus import wordnet from nltk.probability import FreqDist    class WordNetTagger(SequentialBackoffTagger):            »’     >>> wt = WordNetTagger()     >>> wt.tag([‘food’, … Continue reading «PNL | WordNet para etiquetar»

Creación de un ChatBot básico codificado usando Python-NLTK

Creando un chatbot básico usando Python en Jupyter Notebook. Este chatbot interactúa con el usuario utilizando las entradas y salidas codificadas que se introducen en el código de Python. Requisitos: debe instalar el NLTK (Natural Language Toolkit), proporciona bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico para inglés escrito en el … Continue reading «Creación de un ChatBot básico codificado usando Python-NLTK»

Python NLTK | nltk.tokenize.StanfordTokenizer()

Con la ayuda del nltk.tokenize.StanfordTokenizer()método, podemos extraer los tokens de una string de caracteres o números usando el tokenize.StanfordTokenizer()método. Sigue el estándar de Stanford para generar tokens. Sintaxis: tokenize.StanfordTokenizer()Retorno: Devuelve los tokens de una string de caracteres o números. Ejemplo n.º 1: en este ejemplo, podemos ver que al usar el tokenize.SExprTokenizer()método, podemos extraer los … Continue reading «Python NLTK | nltk.tokenize.StanfordTokenizer()»

PNL | Intercambio de frases verbales y sustantivos cardinales

¿Necesita intercambiar frases verbales? Para eliminar la voz pasiva de frases particulares. Esta normalización es útil con el análisis de frecuencia, al contar dos frases aparentemente diferentes como la misma frase. El siguiente código es swap_verb_phrase classel que intercambia el lado izquierdo del fragmento con el lado derecho, usando el verbo como punto de pivote. … Continue reading «PNL | Intercambio de frases verbales y sustantivos cardinales»