PNL: expandir las contracciones en el procesamiento de textos

El preprocesamiento de texto es un paso crucial en la PNL. Limpiar nuestros datos de texto para convertirlos en una forma presentable que sea analizable y predecible para nuestra tarea se conoce como preprocesamiento de texto. En este artículo, vamos a discutir las contracciones y cómo manejar las contracciones en el texto.

¿Qué son las contracciones?

Las contracciones son palabras o combinaciones de palabras que se acortan quitando letras y reemplazándolas por un apóstrofo.

Hoy en día, donde todo está cambiando en línea, nos comunicamos con otros más a través de mensajes de texto o publicaciones en diferentes redes sociales como Facebook, Instagram, Whatsapp, Twitter, LinkedIn, etc. en forma de textos. Con tantas personas con las que hablar, confiamos en abreviaturas y formas abreviadas de palabras para enviar mensajes de texto a las personas.

Por ejemplo , estaré allí en 5 min. ¿No estás ahí? ¿Estoy mssng en smthng? Me gustaría verte cerca del parque d.

En las contracciones en inglés, solemos eliminar las vocales de una palabra para formar las contracciones. Eliminar las contracciones contribuye a la estandarización del texto y es útil cuando estamos trabajando en datos de Twitter, en reseñas de un producto, ya que las palabras juegan un papel importante en el análisis de sentimiento.

¿Cómo expandir las contracciones?

1. Usando la biblioteca de contracciones

Primero, instale la biblioteca. Puede probar esta biblioteca en Google colab ya que la instalación de la biblioteca se vuelve súper sencilla.

Usando pipa:

!pip install contractions

En el cuaderno Jupyter:

import sys  
!{sys.executable} -m pip install contractions

Código 1: para expandir las contracciones usando la biblioteca de contracciones

Python3

# import library
import contractions
# contracted text
text = '''I'll be there within 5 min. Shouldn't you be there too?
          I'd love to see u there my dear. It's awesome to meet new friends.
          We've been waiting for this day for so long.'''
 
# creating an empty list
expanded_words = []   
for word in text.split():
  # using contractions.fix to expand the shortened words
  expanded_words.append(contractions.fix(word))  
   
expanded_text = ' '.join(expanded_words)
print('Original text: ' + text)
print('Expanded_text: ' + expanded_text)

Producción:

Original text: I'll be there within 5 min. Shouldn't you be there too? 
          I'd love to see u there my dear. It's awesome to meet new friends.
          We've been waiting for this day for so long.
Expanded_text: I will be there within 5 min. should not you be there too? 
          I would love to see you there my dear. it is awesome to meet new friends. 
          we have been waiting for this day for so long.

Eliminar las contracciones antes de formar vectores de palabras ayuda a reducir la dimensionalidad.

Código 2: Simplemente usando contractions.fix para expandir el texto.

Python3

text = '''She'd like to know how I'd done that!
          She's going to the park and I don't think I'll be home for dinner.
          Theyre going to the zoo and she'll be home for dinner.'''
 
contractions.fix(text)

Producción:

'she would like to know how I would done that! 
 she is going to the park and I do not think I will be home for dinner.
 they are going to the zoo and she will be home for dinner.'

Las contracciones también se pueden manejar usando otras técnicas como el mapeo de diccionarios y también usando la biblioteca pycontractions. Puede consultar la documentación de la biblioteca de pycontractions para obtener más información sobre esto: https://pypi.org/project/pycontractions/

Publicación traducida automáticamente

Artículo escrito por antaripasaha2000 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *