Este artículo explica acerca de un paquete NLP de python conocido como Rami Al-Rfou. Consta de un montón de características tales como
- Detección de idioma (196 idiomas)
- Tokenización (165 Idiomas)
- Reconocimiento de entidad nombrada (40 idiomas)
- Etiquetado de parte del discurso (16 idiomas)
- Análisis de sentimiento (136 idiomas) y muchos más
Primero, instalemos algunos paquetes requeridos:
use Google Colab para una instalación fácil y sin problemas.
pip install polyglot
# installing dependency packages pip install pyicu
# installing dependency packages pip install Morfessor
# installing dependency packages pip install pycld2
Descargue algunos modelos necesarios
Use Google colab para una fácil instalación de modelos
%%bash polyglot download ner2.en # downloading model ner
%%bash polyglot download pos2.en # downloading model pos
%%bash polyglot download sentiment2.en # downloading model sentiment
Código: detección de idioma
python3
from polyglot.detect import Detector spanish_text = u"""¡Hola ! Mi nombre es Ana. Tengo veinticinco años. Vivo en Miami, Florida""" detector = Detector(spanish_text) print(detector.language)
Salida: :
Detectó el texto dado en español con una confianza de 98
Código: Tokenización
La tokenización es el proceso de dividir las oraciones en palabras e incluso los párrafos en oraciones.
python3
# importing Text from polyglot library from polyglot.text import Text sentences = u"""Suggest a platform for placement preparation?. GFG is a very good platform for placement preparation.""" # passing sentences through imported Text text = Text(sentences) # dividing sentences into words print(text.words) print('\n') # separating sentences print(text.sentences)
Salida :
Ha dividido las oraciones en palabras e incluso ha separado las dos oraciones diferentes.
Código: Reconocimiento de entidad con nombre:
Polyglot reconoce tres categorías de entidades:
- Ubicación
- Organización
- personas
python3
from polyglot.text import Text sentence = """Google is an American multinational technology company and Sundar Pichai is the CEO of Google""" text = Text(sentence, hint_language_code ='en') print(text.entities)
Producción:
I-ORG se refiere a la organización
I-LOC se refiere a la ubicación
I-PER se refiere a la persona
Código: Etiquetado de parte del discurso
python3
from polyglot.text import Text sentence = """GeeksforGeeks is the best place for learning things in simple manner.""" text = Text(sentence) print(text.pos_tags)
Producción:
Aquí ADP se refiere a adposición, ADJ se refiere a adjetivo y DET se refiere a determinante
Código – Análisis de sentimiento
python3
from polyglot.text import Text sentence1 = """ABC is one of the best university in the world.""" sentence2 = """ABC is one of the worst university in the world.""" text1 = Text(sentence1) text2 = Text(sentence2) print(text1.polarity) print(text2.polarity)
Producción:
1 indica que la oración está en contexto positivo
-1 indica que la oración está en contexto negativo
Publicación traducida automáticamente
Artículo escrito por Koushik222 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA