Detectar un idioma desconocido usando Python

La idea detrás de la detección del lenguaje se basa en la detección del carácter entre la expresión y las palabras del texto. El principio fundamental es detectar palabras de uso común como to, of en inglés. Python proporciona varios módulos para la detección de idiomas. En este artículo, los módulos cubiertos son:

  • langdetect
  • mancha de texto
  • lánguido

Método 1: usar langdetectla biblioteca

Este módulo es un puerto de la biblioteca de detección de idiomas de Google que admite 55 idiomas. Este módulo no viene con los módulos de utilidad estándar de Python. Por lo tanto, es necesario instalarlo externamente. Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install langdetect
# Python program to demonstrate
# langdetect
  
  
from langdetect import detect
  
  
# Specifying the language for
# detection
print(detect("Geeksforgeeks is a computer science portal for geeks"))
print(detect("Geeksforgeeks - это компьютерный портал для гиков"))
print(detect("Geeksforgeeks es un portal informático para geeks"))
print(detect("Geeksforgeeks是面向极客的计算机科学门户"))
print(detect("Geeksforgeeks geeks के लिए एक कंप्यूटर विज्ञान पोर्टल है"))
print(detect("Geeksforgeeksは、ギーク向けのコンピューターサイエンスポータルです。"))

Producción:

en
ru
es
no
hi
ja

Método 2: Usando textblobla biblioteca

Este módulo se utiliza para tareas de procesamiento de lenguaje natural (NLP), como extracción de frases nominales, análisis de sentimientos, clasificación, traducción y más. Para instalar este módulo, escriba el siguiente comando en la terminal.
(‘ru’, -641.3409600257874)

pip install textblob

Ejemplo:

# Python program to demonstrate
# textblob
   
  
from textblob import TextBlob
   
  
L = ["Geeksforgeeks is a computer science portal for geeks",
    "Geeksforgeeks - это компьютерный портал для гиков",
    "Geeksforgeeks es un portal informático para geeks",
    "Geeksforgeeks是面向极客的计算机科学门户",
    "Geeksforgeeks geeks के लिए एक कंप्यूटर विज्ञान पोर्टल है",
    "Geeksforgeeksは、ギーク向けのコンピューターサイエンスポータルです。",
    ]
  
for i in L:
      
    # Language Detection
    lang = TextBlob(i) 
    print(lang.detect_language())

Producción:

en
ru
es
zh-CN
hi
ja

Método 3: Usando langridla biblioteca

Este módulo es una herramienta de identificación de idioma independiente. Está pre-entrenado en una gran cantidad de idiomas (actualmente 97). Es un archivo single.py con dependencias mínimas. Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install langrid

Ejemplo:

# Python program to demonstrate
# langid
  
  
import langid
  
  
L = ["Geeksforgeeks is a computer science portal for geeks",
    "Geeksforgeeks - это компьютерный портал для гиков",
    "Geeksforgeeks es un portal informático para geeks",
    "Geeksforgeeks是面向极客的计算机科学门户",
    "Geeksforgeeks geeks के लिए एक कंप्यूटर विज्ञान पोर्टल है",
    "Geeksforgeeksは、ギーク向けのコンピューターサイエンスポータルです。",
    ]
  
for i in L:
      
    # Language detection
    print(langid.classify(i))

Producción:

('en', -119.93012762069702)
('ru', -641.3409600257874)
('es', -191.01083326339722)
('zh', -199.18277835845947)
('hi', -286.99300467967987)
('ja', -875.6610476970673)

Publicación traducida automáticamente

Artículo escrito por argha_c14 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *