Procesamiento del lenguaje natural usando Polyglot – Introducción

Este artículo explica acerca de un paquete NLP de python conocido como Rami Al-Rfou. Consta de un montón de características tales como  
 

  1. Detección de idioma (196 idiomas)
  2. Tokenización (165 Idiomas)
  3. Reconocimiento de entidad nombrada (40 idiomas)
  4. Etiquetado de parte del discurso (16 idiomas)
  5. Análisis de sentimiento (136 idiomas) y muchos más

Primero, instalemos algunos paquetes requeridos: 
use Google Colab para una instalación fácil y sin problemas. 
 

pip install polyglot        
# installing dependency packages
pip install pyicu           
# installing dependency packages
pip install Morfessor       
# installing dependency packages
pip install pycld2          

Descargue algunos modelos necesarios 
Use Google colab para una fácil instalación de modelos 
 

%%bash
polyglot download ner2.en    # downloading model ner
%%bash
polyglot download pos2.en    # downloading model pos
%%bash
polyglot download sentiment2.en  # downloading model sentiment

Código: detección de idioma 
 

python3

from polyglot.detect import Detector
spanish_text = u"""¡Hola ! Mi nombre es Ana. Tengo veinticinco años. Vivo en Miami, Florida"""
detector = Detector(spanish_text)
print(detector.language)

Salida:
 

Detectó el texto dado en español con una confianza de 98 
Código: Tokenización 
La tokenización es el proceso de dividir las oraciones en palabras e incluso los párrafos en oraciones.  
 

python3

# importing Text from polyglot library
from polyglot.text import Text
sentences = u"""Suggest a platform for placement preparation?. GFG is a very good platform for placement
preparation.""" 
# passing sentences through imported Text                             
text = Text(sentences)
# dividing sentences into words                   
print(text.words)               
print('\n')
# separating sentences
print(text.sentences)               

Salida
 

Ha dividido las oraciones en palabras e incluso ha separado las dos oraciones diferentes. 
Código: Reconocimiento de entidad con nombre: 
Polyglot reconoce tres categorías de entidades: 
 

  • Ubicación
  • Organización
  • personas

python3

from polyglot.text import Text
sentence = """Google is an American multinational technology company and Sundar Pichai is the CEO of Google"""
 
text = Text(sentence, hint_language_code ='en')
print(text.entities)

Producción: 
 

I-ORG se refiere a la organización 
I-LOC se refiere a la ubicación 
I-PER se refiere a la persona 
Código: Etiquetado de parte del discurso 
 

python3

from polyglot.text import Text
sentence = """GeeksforGeeks is the best place for learning things in simple manner."""
text = Text(sentence)
print(text.pos_tags)

Producción: 
 

Aquí ADP se refiere a adposición, ADJ se refiere a adjetivo y DET se refiere a determinante 
Código – Análisis de sentimiento 
 

python3

from polyglot.text import Text
sentence1 = """ABC is one of the best university in the world."""
sentence2 = """ABC is one of the worst university in the world."""
text1 = Text(sentence1)
text2 = Text(sentence2)
print(text1.polarity)
print(text2.polarity)

Producción: 
 

1 indica que la oración está en contexto positivo 
-1 indica que la oración está en contexto negativo 
 

Publicación traducida automáticamente

Artículo escrito por Koushik222 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *