Módulo num2words en Python, que convierte números (como 34) en palabras (como treinta y cuatro). Además, esta biblioteca tiene soporte para múltiples idiomas. En este artículo, veremos cómo convertir números en palabras usando el num2words
módulo.
Instalación
Uno puede instalar fácilmente num2words
usando pip.
pip install num2words
Considere los siguientes dos extractos de diferentes archivos tomados de 20 Newsgroups, una popular base de datos de PNL. El preprocesamiento de 20 grupos de noticias sigue siendo un tema de interés.
En el artículo, Martin Preston escribe: ¿Por qué no usar la biblioteca PD C para leer/escribir archivos TIFF? Me tomó unos buenos 20 minutos comenzar a usarlos en su propia aplicación.
ISCIS VIII es el octavo de una serie de encuentros que han reunido a informáticos e ingenieros de una veintena de países. La conferencia de este año se llevará a cabo en la hermosa ciudad turística mediterránea de Antalya, en una región rica en sitios naturales e históricos.
En los dos extractos anteriores, se puede observar que el número ’20’ aparece tanto en forma numérica como alfabética. El simple hecho de seguir los pasos de preprocesamiento, que implican tokenización, lematización, etc., no podría asignar ’20’ y ‘veinte’ a la misma raíz, lo cual es de importancia contextual. Afortunadamente, tenemos la biblioteca incorporada, num2words
que resuelve este problema en una sola línea.
A continuación se muestra el uso de muestra de la herramienta.
from num2words import num2words # Most common usage. print(num2words(36)) # Other variants, according to the type of article. print(num2words(36, to = 'ordinal')) print(num2words(36, to = 'ordinal_num')) print(num2words(36, to = 'year')) print(num2words(36, to = 'currency')) # Language Support. print(num2words(36, lang ='es'))
Producción:
thirty-six thirty-sixth 36th zero euro, thirty-six cents treinta y seis
Por lo tanto, en el paso de preprocesamiento, uno podría convertir TODOS los valores numéricos en palabras para una mayor precisión en las etapas posteriores.
Referencias: https://pypi.org/project/num2words/
Publicación traducida automáticamente
Artículo escrito por Anannya Uberoi 1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA