Programa de Python para extraer strings entre etiquetas HTML

Dada una string y una etiqueta HTML, extraiga todas las strings entre la etiqueta especificada.

Entrada : ‘<b>Gfg</b> es <b>Mejor</b>. Me encanta <b>Leer CS</b> de él.’ , etiqueta = “br”
Salida : [‘Gfg’, ‘Best’, ‘Reading CS’]
Explicación : se extraen todas las strings entre la etiqueta “br”.

Entrada : ‘<h1>Gfg</h1> es <h1>Mejor</h1> Me encanta <h1>Leer CS</h1>’, etiqueta = «h1»
Salida : [‘Gfg’, ‘Mejor’, ‘ Lectura CS’]
Explicación : se extraen todas las strings entre la etiqueta «h1».

Con el módulo re se puede realizar esta tarea. En esto, empleamos la función findall() para extraer todas las strings al hacer coincidir la expresión regular apropiada construida usando etiquetas y símbolos.

Python3

# importing re module
import re
  
# initializing string
test_str = '<b>Gfg</b> is <b>Best</b>. I love <b>Reading CS</b> from it.'
  
# printing original string
print("The original string is : " + str(test_str))
  
# initializing tag
tag = "b"
  
# regex to extract required strings
reg_str = "<" + tag + ">(.*?)</" + tag + ">"
res = re.findall(reg_str, test_str)
  
# printing result
print("The Strings extracted : " + str(res))

Producción:

La string original es: <b>Gfg</b> es <b>Mejor</b>. Me encanta <b>Leer CS</b> de él.
Las strings extraídas: [‘Gfg’, ‘Best’, ‘Reading CS’]

Publicación traducida automáticamente

Artículo escrito por manjeet_04 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Python3

Deja una respuesta Cancelar la respuesta