La idea detrás de la detección del lenguaje se basa en la detección del carácter entre la expresión y las palabras del texto. El principio fundamental es detectar palabras de uso común como to, of en inglés. Python proporciona varios módulos para la detección de idiomas. En este artículo, los módulos cubiertos son:
- langdetect
- mancha de texto
- lánguido
Método 1: usar langdetect
la biblioteca
Este módulo es un puerto de la biblioteca de detección de idiomas de Google que admite 55 idiomas. Este módulo no viene con los módulos de utilidad estándar de Python. Por lo tanto, es necesario instalarlo externamente. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install langdetect
# Python program to demonstrate # langdetect from langdetect import detect # Specifying the language for # detection print(detect("Geeksforgeeks is a computer science portal for geeks")) print(detect("Geeksforgeeks - это компьютерный портал для гиков")) print(detect("Geeksforgeeks es un portal informático para geeks")) print(detect("Geeksforgeeks是面向极客的计算机科学门户")) print(detect("Geeksforgeeks geeks के लिए एक कंप्यूटर विज्ञान पोर्टल है")) print(detect("Geeksforgeeksは、ギーク向けのコンピューターサイエンスポータルです。"))
Producción:
en ru es no hi ja
Método 2: Usando textblob
la biblioteca
Este módulo se utiliza para tareas de procesamiento de lenguaje natural (NLP), como extracción de frases nominales, análisis de sentimientos, clasificación, traducción y más. Para instalar este módulo, escriba el siguiente comando en la terminal.
(‘ru’, -641.3409600257874)
pip install textblob
Ejemplo:
# Python program to demonstrate # textblob from textblob import TextBlob L = ["Geeksforgeeks is a computer science portal for geeks", "Geeksforgeeks - это компьютерный портал для гиков", "Geeksforgeeks es un portal informático para geeks", "Geeksforgeeks是面向极客的计算机科学门户", "Geeksforgeeks geeks के लिए एक कंप्यूटर विज्ञान पोर्टल है", "Geeksforgeeksは、ギーク向けのコンピューターサイエンスポータルです。", ] for i in L: # Language Detection lang = TextBlob(i) print(lang.detect_language())
Producción:
en ru es zh-CN hi ja
Método 3: Usando langrid
la biblioteca
Este módulo es una herramienta de identificación de idioma independiente. Está pre-entrenado en una gran cantidad de idiomas (actualmente 97). Es un archivo single.py con dependencias mínimas. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install langrid
Ejemplo:
# Python program to demonstrate # langid import langid L = ["Geeksforgeeks is a computer science portal for geeks", "Geeksforgeeks - это компьютерный портал для гиков", "Geeksforgeeks es un portal informático para geeks", "Geeksforgeeks是面向极客的计算机科学门户", "Geeksforgeeks geeks के लिए एक कंप्यूटर विज्ञान पोर्टल है", "Geeksforgeeksは、ギーク向けのコンピューターサイエンスポータルです。", ] for i in L: # Language detection print(langid.classify(i))
Producción:
('en', -119.93012762069702) ('ru', -641.3409600257874) ('es', -191.01083326339722) ('zh', -199.18277835845947) ('hi', -286.99300467967987) ('ja', -875.6610476970673)