Preprocesamiento de texto en Python | Serie 1

Requisitos previos: Introducción a la PNL Siempre que tengamos datos textuales, debemos aplicar varios pasos de preprocesamiento a los datos para transformar las palabras en características numéricas que funcionan con algoritmos de aprendizaje automático. Los pasos de preprocesamiento de un problema dependen principalmente del dominio y del problema en sí, por lo tanto, no es … Continue reading «Preprocesamiento de texto en Python | Serie 1»

PNL | Extracción de etiquetas de ubicación

Se pueden usar diferentes tipos de subclases ChunkParserI para identificar los fragmentos LOCATION. Ya que utiliza el corpus de diccionarios geográficos para identificar palabras de ubicación. El corpus del nomenclátor es un WordListCorpusReader classque contiene las siguientes palabras de ubicación: Nombres de países Estados de EE. UU. y abreviaturas estados mexicanos Principales ciudades de EE. … Continue reading «PNL | Extracción de etiquetas de ubicación»

PNL | Chunker basado en Tagger de entrenamiento | conjunto 2

corpus Conll2000 define los fragmentos utilizando etiquetas IOB. Especifica dónde comienza y termina el fragmento, junto con sus tipos. Se puede entrenar un etiquetador de parte del discurso en estas etiquetas IOB para potenciar aún más una subclase ChunkerI. Primero, utilizando el método de corpus chunked_sents() , se obtiene un árbol y luego se transforma … Continue reading «PNL | Chunker basado en Tagger de entrenamiento | conjunto 2»

PNL | Almacenamiento de la distribución de frecuencias en Redis

La clase nltk.probability.FreqDist se usa en muchas clases en NLTK para almacenar y administrar distribuciones de frecuencia. Es bastante útil, pero todo está en la memoria y no proporciona una forma de conservar los datos. Un solo FreqDist tampoco es accesible para múltiples procesos. Todo eso se puede cambiar construyendo un FreqDist sobre Redis. ¿Qué … Continue reading «PNL | Almacenamiento de la distribución de frecuencias en Redis»

PNL | Etiquetas IOB

¿Qué son los trozos? Los fragmentos se componen de palabras y los tipos de palabras se definen utilizando las etiquetas de parte del discurso. Incluso se puede definir un patrón o palabras que no pueden ser parte de chuck y esas palabras se conocen como grietas.   ¿Qué son las etiquetas IOB? Es un formato para trozos. Estas … Continue reading «PNL | Etiquetas IOB»

Las 5 principales industrias afectadas por las tendencias del procesamiento del lenguaje natural (NLP)

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) ha sido realizado por el cerebro humano durante siglos y ahora lo realizan las computadoras desde la década de 1950. Si lo piensas bien, todo el proceso de procesamiento del lenguaje es bastante complicado. Los científicos y desarrolladores han estado tratando de hacer que … Continue reading «Las 5 principales industrias afectadas por las tendencias del procesamiento del lenguaje natural (NLP)»

PNL | Entrenamiento de un tokenizador y filtrado de palabras vacías en una oración

¿Por qué necesitamos entrenar un tokenizador de oraciones? En NLTK, el tokenizador de oraciones predeterminado funciona para fines generales y funciona muy bien. Pero hay posibilidades de que no funcione mejor para algún tipo de texto, ya que ese texto puede usar una puntuación no estándar o tal vez tenga un formato único. Entonces, para … Continue reading «PNL | Entrenamiento de un tokenizador y filtrado de palabras vacías en una oración»

Cómo usar la API Vision de Google Cloud – Part 1

La API Vision de Google Cloud tiene múltiples funcionalidades. En este artículo veremos cómo acceder a ellos. Antes de usar la API, debe abrir una cuenta de desarrollador de Google, crear una instancia de máquina virtual y configurar una API. Para eso, consulte este artículo. Necesitamos descargar los siguientes paquetes:   pip install google.cloud.vision Los diversos servicios … Continue reading «Cómo usar la API Vision de Google Cloud – Part 1»

PNL | Chunker basado en Tagger de entrenamiento | Serie 1

Entrenar un fragmentador es una alternativa a la especificación manual de patrones de fragmentación de expresiones regulares (regex). Pero el entrenamiento manual para especificar la expresión es una tarea tediosa, ya que sigue el método de acierto y prueba para obtener los patrones exactos correctos. Por lo tanto, los datos de corpus existentes se pueden … Continue reading «PNL | Chunker basado en Tagger de entrenamiento | Serie 1»

PNL | Leacock Chordorow (LCH) y similitud de ruta para Synset

Similitud basada en ruta: es una medida de similitud que encuentra la distancia que es la longitud de la ruta más corta entre dos synsets. Leacock Chordorow (LCH): es una medida de similitud que es una versión extendida de la similitud basada en rutas, ya que incorpora la profundidad de la taxonomía. Por lo tanto, … Continue reading «PNL | Leacock Chordorow (LCH) y similitud de ruta para Synset»