El preprocesamiento de texto es una de las tareas más importantes en el procesamiento del lenguaje natural. Es posible que desee extraer el número de una string. Escribir un script manual para dicha tarea de procesamiento requiere mucho esfuerzo y, en la mayoría de los casos, es propenso a errores. Teniendo en cuenta la importancia de estas tareas de preprocesamiento, se ha desarrollado el concepto de expresión regular en diferentes lenguajes de programación para facilitar estas tareas de procesamiento de texto.
Para implementar Regular Expression , se puede usar el paquete python re y, para usarlo, se puede importar fácilmente como cualquier otro módulo de python incorporado.
Pasos para convertir un número de teléfono de 10 dígitos a su formato de número de EE. UU. correspondiente:
- Importe el paquete python re.
- Escriba una función que tome el número de teléfono a formatear como argumento y lo procese.
- Ahora simplemente llame a la función y pase el valor.
Ejemplo:
Python3
import re def convert_phone_number(phone): # actual pattern which only change this line num = re.sub(r'(?<!\S)(\d{3})-', r'(\1) ', phone) return num # Driver code print(convert_phone_number("Call geek 321-963-0612"))
Producción:
Call geek (321) 963-0612