Si te gusta jugar con las API o te gusta extraer datos de varios sitios web, debes haber encontrado textos molestos aleatorios, números, palabras clave que aparecen con los datos. A veces puede ser realmente complicado y frustrante limpiar los datos extraídos para obtener los datos reales que queremos.
En este artículo, vamos a explorar una biblioteca de python llamada texto limpio que lo ayudará a limpiar sus datos raspados en cuestión de segundos sin escribir ningún código largo y elegante. Vamos a empezar
Instalación
Usa el siguiente comando
pip install clean-text
Nota: el paquete CleanText requiere Python 3.7 o superior.
Sintaxis
cleantext.clean_words( texto , {operaciones})
- texto: string
- operaciones: menciones a continuación
Diferentes operaciones de texto limpio:
La función de texto limpio proporciona una variedad de argumentos que especifican cómo limpiar la entrada de texto sin procesar dada y devolver el texto limpio en forma de string. Aquí está la lista de argumentos que puede usar para limpiar los datos requeridos.
- fix_unicode: corrige errores de Unicode, toma el valor como verdadero o falso
- to_ascii: Traducir a representación ASCII, toma el valor como Verdadero o Falso
- lower: convierte la entrada a minúsculas, toma el valor como verdadero o falso
- no_line_breaks: elimina todos los saltos de línea
- no_urls: reemplaza todas las URL con un token especial
- no_emails: reemplaza todas las direcciones de correo electrónico con un token especial
- no_phone_numbers: reemplaza todos los números de teléfono con un token especial
- no_numbers: reemplaza todos los números con un token especial
- no_digits: reemplaza todos los dígitos con un token especial
- no_currency_symbols: reemplaza todos los símbolos de moneda con un token especial
- no_punct: Elimina toda la puntuación
- replace_with_punct=”” : Reemplaza toda la puntuación con la entrada dada
- replace_with_url=”<URL>” : Reemplace las URL de datos con la entrada dada
- replace_with_email=”<EMAIL>” : Reemplace los correos electrónicos de datos con la entrada dada
- replace_with_phone_number=”<TELÉFONO>”: Reemplace los números de teléfono con la entrada dada
- replace_with_number=”<NUMBER>” : Reemplazar números con la entrada dada
- replace_with_digit=”0″ : Reemplazar dígitos con entrada dada
- replace_with_currency_symbol=”<CUR>” : Reemplace los correos electrónicos de datos con la entrada dada
- lang= “en” (Solo se admiten los idiomas inglés y alemán)
Implementación de código:
Python3
# import library from cleantext import clean # input string text = """ A bunch of \\u2018new\\u2019 references, including [Moana]. »Yóù àré rïght <3!« """ print(clean(text=text, fix_unicode=True, to_ascii=True, lower=True, no_line_breaks=False, no_urls=False, no_emails=False, no_phone_numbers=False, no_numbers=False, no_digits=False, no_currency_symbols=False, no_punct=False, replace_with_punct="", replace_with_url="This is a URL", replace_with_email="Email", replace_with_phone_number="", replace_with_number="123", replace_with_digit="0", replace_with_currency_symbol="$", lang="en" ))
Producción:
Publicación traducida automáticamente
Artículo escrito por adityasangave21 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA