Python NLTK | nltk.tokenize.LineTokenizer

Con la ayuda del nltk.tokenize.LineTokenizer()método, podemos extraer los tokens de una string de oraciones en forma de una sola línea usando el tokenize.LineTokenizer()método. Sintaxis: tokenize.LineTokenizer()Retorno: Retorna los tokens de línea del flujo de oraciones. Ejemplo n.º 1: en este ejemplo, podemos ver que al usar tokenize.LineTokenizer()el método, podemos extraer los tokens del flujo de oraciones … Continue reading «Python NLTK | nltk.tokenize.LineTokenizer»

PNL | Dividir y fusionar fragmentos

Clase SplitRule: divide un fragmento según el patrón de división especificado para el propósito. Se especifica como <NN.*>}{<.*>, es decir, dos llaves opuestas rodeadas por un patrón a cada lado. Clase MergeRule: fusiona dos fragmentos en función del final del primer fragmento y el comienzo del segundo fragmento. Se especifica como <NN.*>{}<.*>, es decir, llaves … Continue reading «PNL | Dividir y fusionar fragmentos»

Python: calcule la frecuencia de las palabras después de eliminar las palabras vacías y la lematización

En este artículo, vamos a tokenizar el contenido de la oración, el párrafo y la página web utilizando el kit de herramientas NLTK en el entorno de Python, luego eliminaremos las palabras vacías y aplicaremos la lematización en el contenido de la oración, el párrafo y la página web. Finalmente, calcularemos la frecuencia de las … Continue reading «Python: calcule la frecuencia de las palabras después de eliminar las palabras vacías y la lematización»

Python | Medir la similitud entre dos oraciones usando la similitud del coseno

La similitud de coseno es una medida de similitud entre dos vectores distintos de cero de un espacio de producto interno que mide el coseno del ángulo entre ellos. Semejanza = (AB) / (||A||.||B||) donde A y B son vectores. En este programa se utilizan la similitud de coseno y el módulo de herramientas nltk. … Continue reading «Python | Medir la similitud entre dos oraciones usando la similitud del coseno»

PNL | Uso de dateutil para analizar fechas.

El módulo analizador puede analizar strings de fecha y hora en muchos más formatos. No puede haber mejor biblioteca que dateutil para analizar fechas y horas en Python. Para buscar las zonas horarias, el módulo tz proporciona todo. Cuando estos módulos se combinan, hacen que sea muy fácil analizar strings en objetos de fecha y … Continue reading «PNL | Uso de dateutil para analizar fechas.»

Python NLTK | nltk.tokenize.mwe()

Con la ayuda del NLTK nltk.tokenize.mwe()método, podemos tokenizar la transmisión de audio en un token de expresión de varias palabras, lo que ayuda a vincular los tokens con guiones bajos mediante el uso nltk.tokenize.mwe()del método. Recuerde que distingue entre mayúsculas y minúsculas. Sintaxis: MWETokenizer.tokenize()Retorno: Retorna los tokens de vinculación como uno solo si se declararon … Continue reading «Python NLTK | nltk.tokenize.mwe()»

Python NLTK | nltk.tokenize.TabTokenizer()

Con la ayuda del nltk.tokenize.TabTokenizer()método, podemos extraer los tokens de una string de palabras sobre la base de las pestañas entre ellos usando el tokenize.TabTokenizer()método. Sintaxis : tokenize.TabTokenizer()Return : Devuelve los tokens de las palabras. Ejemplo n.º 1: en este ejemplo, podemos ver que al usar el tokenize.TabTokenizer()método, podemos extraer los tokens de la secuencia … Continue reading «Python NLTK | nltk.tokenize.TabTokenizer()»

PNL | Etiquetador brillante

La clase BrillTagger es un etiquetador basado en transformación . No es una subclase de SequentialBackoffTagger. Además, utiliza una serie de reglas para corregir los resultados de un etiquetador inicial. Estas reglas que sigue se basan en la puntuación. Esta puntuación es igual a la no. de errores que corrigen menos el no. de los … Continue reading «PNL | Etiquetador brillante»

PNL | Cómo puntuar palabras con Execnet y Redis

La puntuación de palabras distribuidas se puede realizar usando Redis y Execnet juntos. Para cada palabra en el corpus movie_reviews, FreqDist y ConditionalFreqDist se utilizan para calcular la ganancia de información. Usando >RedisHashFreqDist y RedisConditionalHashFreqDist , se puede hacer lo mismo con Redis. Luego, las puntuaciones se almacenan en un RedisOrderedDict . Para obtener un mejor … Continue reading «PNL | Cómo puntuar palabras con Execnet y Redis»

PNL | Singularización de sustantivos en plural e intercambio de frases infinitas

Entendamos esto con un ejemplo: ¿Nuestro hijo está entrenando lo suficiente? ¿Nuestro hijo está entrenando lo suficiente? El verbo ‘es’ solo se puede usar con sustantivos singulares. Para los sustantivos en plural, usamos ‘are’. Este problema es muy común en el mundo real y podemos corregir este error creando asignaciones de corrección de verbos que … Continue reading «PNL | Singularización de sustantivos en plural e intercambio de frases infinitas»