PNL | Expansión y eliminación de fragmentos con RegEx

RegexpParser o RegexpChunkRule.fromstring() no admiten todos los RegexpChunkRule classes. Entonces, necesitamos crearlos manualmente. Este artículo se centra en 3 de tales clases: ExpandRightRule: agrega palabras de resquicio (desbloqueadas) a la derecha de un fragmento. ExpandLeftRule: agrega palabras con grietas (sin descifrar) a la izquierda de un fragmento. For ExpandLeftRule y ExpandRightRule toma como parámetro: el … Continue reading «PNL | Expansión y eliminación de fragmentos con RegEx»

PNL | Parte del discurso: etiquetado predeterminado

¿Qué es el etiquetado de parte del discurso (POS)? Es un proceso de convertir una oración en formas: lista de palabras, lista de tuplas (donde cada tupla tiene una forma (palabra, etiqueta) ). La etiqueta en caso de es una etiqueta de parte del discurso e indica si la palabra es un sustantivo, un adjetivo, … Continue reading «PNL | Parte del discurso: etiquetado predeterminado»

PNL | Reglas de fragmentación

A continuación se detallan los pasos necesarios para la fragmentación:   Conversión de oración a un árbol plano.   Creación de string Chunk usando este árbol. Creación de RegexpChunkParser analizando la gramática usando RegexpParser. Aplicar la regla de fragmento creada a ChunkString que coincide con la oración en un fragmento.   Dividir el fragmento más grande en un … Continue reading «PNL | Reglas de fragmentación»

PNL | Synsets para una palabra en WordNet

WordNet es la base de datos léxica, es decir, un diccionario para el idioma inglés, diseñado específicamente para el procesamiento del lenguaje natural. Synset es un tipo especial de interfaz simple que está presente en NLTK para buscar palabras en WordNet. Las instancias Synset son las agrupaciones de palabras sinónimas que expresan el mismo concepto. … Continue reading «PNL | Synsets para una palabra en WordNet»

Google Meet Summarizer multilingüe – Proyecto Python

A principios de 2020, enfrentamos la mayor crisis del siglo XXI: la pandemia de COVID-19. En medio del caos, la generación finalmente encontró una manera de hacer el trabajo mediante la introducción de la automatización en todos los demás aspectos de la vida. Tras el golpe de la pandemia, nos hemos encontrado con un aumento … Continue reading «Google Meet Summarizer multilingüe – Proyecto Python»

PNL | Fragmentación basada en clasificador | conjunto 2

Usando los datos del corpus treebank_chunk, permítanos evaluar los chunkers (preparados en el artículo anterior). Código #1: # loading libraries from chunkers import ClassifierChunker from nltk.corpus import treebank_chunk    train_data = treebank_chunk.chunked_sents()[:3000] test_data = treebank_chunk.chunked_sents()[3000:]    # initializing chunker = ClassifierChunker(train_data)    # evaluation score = chunker.evaluate(test_data)    a = score.accuracy() p = score.precision() r … Continue reading «PNL | Fragmentación basada en clasificador | conjunto 2»

PNL | corpus personalizado

¿Qué es un corpus? Un corpus se puede definir como una colección de documentos de texto. Puede pensarse como un conjunto de archivos de texto en un directorio, a menudo junto con muchos otros directorios de archivos de texto. Como esta hecho ? NLTK ya define una lista de rutas de datos o directorios en … Continue reading «PNL | corpus personalizado»

PNL | Etiquetas IOB

¿Qué son los trozos? Los fragmentos se componen de palabras y los tipos de palabras se definen utilizando las etiquetas de parte del discurso. Incluso se puede definir un patrón o palabras que no pueden ser parte de chuck y esas palabras se conocen como grietas.   ¿Qué son las etiquetas IOB? Es un formato para trozos. Estas … Continue reading «PNL | Etiquetas IOB»

PNL | Entrenamiento de un tokenizador y filtrado de palabras vacías en una oración

¿Por qué necesitamos entrenar un tokenizador de oraciones? En NLTK, el tokenizador de oraciones predeterminado funciona para fines generales y funciona muy bien. Pero hay posibilidades de que no funcione mejor para algún tipo de texto, ya que ese texto puede usar una puntuación no estándar o tal vez tenga un formato único. Entonces, para … Continue reading «PNL | Entrenamiento de un tokenizador y filtrado de palabras vacías en una oración»

Corrección de palabras usando NLTK en Python

nltk significa Natural Language Toolkit y es un potente paquete que consta de bibliotecas y programas que se pueden utilizar para el procesamiento estadístico del lenguaje natural. Las bibliotecas pueden implementar tokenización, clasificación, análisis, derivación, etiquetado, razonamiento semántico, etc. Este conjunto de herramientas puede hacer que las máquinas entiendan el lenguaje humano.  Vamos a utilizar … Continue reading «Corrección de palabras usando NLTK en Python»