Limpie los datos de raspado web usando texto limpio en Python

Si te gusta jugar con las API o te gusta extraer datos de varios sitios web, debes haber encontrado textos molestos aleatorios, números, palabras clave que aparecen con los datos. A veces puede ser realmente complicado y frustrante limpiar los datos extraídos para obtener los datos reales que queremos. 

En este artículo, vamos a explorar una biblioteca de python llamada texto limpio que lo ayudará a limpiar sus datos raspados en cuestión de segundos sin escribir ningún código largo y elegante. Vamos a empezar

Instalación

Usa el siguiente comando

pip install clean-text

Nota: el paquete CleanText requiere Python 3.7 o superior.

Sintaxis

cleantext.clean_words( texto , {operaciones})

  • texto: string
  • operaciones: menciones a continuación 

Diferentes operaciones de texto limpio:

La función de texto limpio proporciona una variedad de argumentos que especifican cómo limpiar la entrada de texto sin procesar dada y devolver el texto limpio en forma de string. Aquí está la lista de argumentos que puede usar para limpiar los datos requeridos.

  • fix_unicode: corrige errores de Unicode, toma el valor como verdadero o falso
  • to_ascii: Traducir a representación ASCII, toma el valor como Verdadero o Falso
  • lower: convierte la entrada a minúsculas, toma el valor como verdadero o falso            
  • no_line_breaks: elimina todos los saltos de línea
  • no_urls: reemplaza todas las URL con un token especial
  • no_emails: reemplaza todas las direcciones de correo electrónico con un token especial
  • no_phone_numbers: reemplaza todos los números de teléfono con un token especial
  • no_numbers: reemplaza todos los números con un token especial
  • no_digits: reemplaza todos los dígitos con un token especial
  • no_currency_symbols: reemplaza todos los símbolos de moneda con un token especial   
  • no_punct: Elimina toda la puntuación       
  • replace_with_punct=”” : Reemplaza toda la puntuación con la entrada dada
  • replace_with_url=”<URL>” : Reemplace las URL de datos con la entrada dada
  • replace_with_email=”<EMAIL>” : Reemplace los correos electrónicos de datos con la entrada dada
  • replace_with_phone_number=”<TELÉFONO>”: Reemplace los números de teléfono con la entrada dada
  • replace_with_number=”<NUMBER>” : Reemplazar números con la entrada dada
  • replace_with_digit=”0″ : Reemplazar dígitos con entrada dada
  • replace_with_currency_symbol=”<CUR>” : Reemplace los correos electrónicos de datos con la entrada dada
  • lang= “en” (Solo se admiten los idiomas inglés y alemán)

Implementación de código:

Python3

# import library
from cleantext import clean
 
# input string
text = """
    A bunch of \\u2018new\\u2019 references,
    including [Moana]. »Yóù àré rïght <3!«
    """
 
print(clean(text=text,
            fix_unicode=True,
            to_ascii=True,
            lower=True,
            no_line_breaks=False,
            no_urls=False,
            no_emails=False,
            no_phone_numbers=False,
            no_numbers=False,
            no_digits=False,
            no_currency_symbols=False,
            no_punct=False,
            replace_with_punct="",
            replace_with_url="This is a URL",
            replace_with_email="Email",
            replace_with_phone_number="",
            replace_with_number="123",
            replace_with_digit="0",
            replace_with_currency_symbol="$",
            lang="en"
            ))

Producción:

 

Publicación traducida automáticamente

Artículo escrito por adityasangave21 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *