Python NLTK | nltk.WhitespaceTokenizer

Con la ayuda del nltk.tokenize.WhitespaceTokenizer()método, podemos extraer los tokens de strings de palabras u oraciones sin espacios en blanco , nuevas líneas y tabulaciones usando el tokenize.WhitespaceTokenizer()método. Sintaxis: tokenize.WhitespaceTokenizer()Retorno: Devuelve los tokens de una string Ejemplo #1: En este ejemplo, podemos ver que al usar el tokenize.WhitespaceTokenizer()método, podemos extraer los tokens del flujo de palabras. … Continue reading «Python NLTK | nltk.WhitespaceTokenizer»

Python NLTK | nltk.tokenize.SExprTokenizer()

Con la ayuda del nltk.tokenize.SExprTokenizer()método, podemos extraer los tokens de una string de caracteres o números usando el tokenize.SExprTokenizer()método. En realidad, busca los soportes adecuados para hacer tokens. Sintaxis: tokenize.SExprTokenizer()Retorno: Devuelve los tokens de una string de caracteres o números. Ejemplo n.º 1: en este ejemplo, podemos ver que al usar el tokenize.SExprTokenizer()método, podemos extraer … Continue reading «Python NLTK | nltk.tokenize.SExprTokenizer()»

Idea de proyecto: búsqueda de noticias en un periódico antiguo con PNL

Sabemos que el periódico es una fuente enriquecida de conocimiento. Cuando una persona necesita información sobre un tema o asunto en particular, busca en línea, pero es difícil obtener todos los artículos de noticias antiguos de los periódicos locales regionales relacionados con nuestra búsqueda. Como no todos los periódicos locales ofrecen una búsqueda en línea … Continue reading «Idea de proyecto: búsqueda de noticias en un periódico antiguo con PNL»

Python NLTK | nltk.tokenizer.word_tokenize()

Con la ayuda del nltk.tokenize.word_tokenize()método, podemos extraer los tokens de una string de caracteres usando el tokenize.word_tokenize()método. En realidad, devuelve las sílabas de una sola palabra. Una sola palabra puede contener una o dos sílabas. Sintaxis: tokenize.word_tokenize()Retorno: Retorna la lista de sílabas de las palabras. Ejemplo #1: En este ejemplo, podemos ver que al usar … Continue reading «Python NLTK | nltk.tokenizer.word_tokenize()»

PNL | Corpus de texto categorizado

Si tenemos una gran cantidad de datos de texto, entonces uno puede categorizarlos en secciones separadas.  Código #1: Categorización   Python3 # Loading brown corpus from nltk.corpus import brown   brown.categories() Producción :  [‘adventure’, ‘belles_lettres’, ‘editorial’, ‘fiction’, ‘government’, ‘hobbies’, ‘humor’, ‘learned’, ‘lore’, ‘mystery’, ‘news’, ‘religion’, ‘reviews’, ‘romance’, ‘science_fiction’] ¿Cómo categorizar un corpus?  La forma más fácil … Continue reading «PNL | Corpus de texto categorizado»

Python NLTK | tokenizar.WordPunctTokenizer()

Con la ayuda del nltk.tokenize.WordPunctTokenizer()()método, podemos extraer los tokens de una string de palabras u oraciones en forma de caracteres alfabéticos y no alfabéticos utilizando el tokenize.WordPunctTokenizer()()método. Sintaxis: tokenize.WordPunctTokenizer()()Retorno: Devuelve los tokens de una string de caracteres alfabéticos o no alfabéticos. Ejemplo n.º 1: en este ejemplo, podemos ver que al usar el tokenize.WordPunctTokenizer()()método, podemos … Continue reading «Python NLTK | tokenizar.WordPunctTokenizer()»

PNL | Etiquetado basado en clasificador

ClassifierBasedPOSTagger clase : Es una subclase de ClassifierBasedTagger que utiliza la técnica de clasificación para etiquetar partes del discurso. De las palabras, se extraen las características y luego se pasan a un clasificador interno. Clasifica las características y devuelve una etiqueta, es decir, una etiqueta de parte del discurso. El detector de características encuentra sufijos … Continue reading «PNL | Etiquetado basado en clasificador»

Análisis de sentimiento de Twitter sobre la guerra entre Rusia y Ucrania usando Python

En este artículo, vamos a ver cómo podemos realizar el análisis de sentimiento de Twitter sobre la Guerra Rusia-Ucrania usando Python. El papel de las redes sociales en la opinión pública ha sido profundo y evidente desde que comenzaron a llamar la atención. Las redes sociales nos permiten compartir información en gran capacidad y a … Continue reading «Análisis de sentimiento de Twitter sobre la guerra entre Rusia y Ucrania usando Python»

Detección de texto usando Python

El lenguaje Python se usa ampliamente para el aprendizaje automático moderno y el análisis de datos. Uno puede detectar una imagen, un discurso, incluso puede detectar un objeto a través de Python. Por ahora, detectaremos si el texto del usuario da una sensación positiva o negativa clasificando el texto como positivo, negativo o neutral. En … Continue reading «Detección de texto usando Python»

Python NLTK | nltk.tokenize.SpaceTokenizer()

Con la ayuda del nltk.tokenize.SpaceTokenizer()método, podemos extraer los tokens de una string de palabras en función del espacio entre ellos utilizando el tokenize.SpaceTokenizer()método. Sintaxis : tokenize.SpaceTokenizer()Return : Devuelve los tokens de las palabras. Ejemplo n.º 1: en este ejemplo, podemos ver que al usar el tokenize.SpaceTokenizer()método, podemos extraer los tokens de la secuencia a palabras … Continue reading «Python NLTK | nltk.tokenize.SpaceTokenizer()»