Python: convierte caracteres HTML en strings

Requisitos previos: módulo html

Dada una string con caracteres HTML, la tarea es convertir los caracteres HTML en una string. Esto se puede lograr con la ayuda del método html.escape() (para Python 3.4 + ), podemos convertir la string ASCII en un script HTML reemplazando los caracteres ASCII con caracteres especiales usando el método html.escape().

Mediante este método podemos decodificar las entidades HTML en texto.

Sintaxis:

html.unescape(String)

También podemos usar Beautiful Soup, que maneja la conversión de entidades. En Beautiful Soup 4, las entidades se decodifican automáticamente.

Ejemplo 1: Python 3.6+

Python3

# import html
import html
  
# Create Text
text = 'Γeeks for Γeeks'
  
# It Converts given text To String
print(html.unescape(text)) 
  
# It Converts given text to HTML Entities 
print(html.escape(text)) 

Producción:

Frikis por frikis

Γsemanas por Γsemanas

Ejemplo 2: Python 2.6-3.3

Podemos usar HTMLParser.unescape() de la biblioteca estándar:

  • Para Python 2.6-2.7 está en HtmlParser.
  • Para Python 3 está en html.parser

Python3

#import html
import html
  
try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser
  
# for python 3
h = html.parser
print(h.unescape('Γeeks for Γeeks'))  

Producción:

Frikis por frikis

Publicación traducida automáticamente

Artículo escrito por aksrathod07 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *