Obtenga una lista de todas las etiquetas de encabezado usando BeautifulSoup

Para imprimir todas las etiquetas de encabezado usando BeautifulSoup, usamos el método find_all() . El método find_all es uno de los métodos más comunes en BeautifulSoup. Mira a través de una etiqueta y recupera todas las ocurrencias de esa etiqueta.

Sintaxis: find_all(name, attrs, recursive, string, limit, **kwargs)

Un documento HTML consta de las siguientes etiquetas: h1, h2, h3, h4, h5 y h6. Las etiquetas HTML más utilizadas en las páginas web son h1, h2 y h3, y para encontrarlas pasamos una lista de etiquetas como argumento al método find_all().

Pasos:

  1. importar las requests de bibliotecas y BeautifulSoup
  2. pasar una URL a una variable
  3. use la biblioteca de requests para obtener la URL
  4. crear un objeto BeautifulSoup
  5. crear una lista de etiquetas de encabezado()
  6. iterar sobre todas las etiquetas de encabezado usando el método find_all()

Ejemplo:

Python3

# Python program to print all heading tags
import requests
from bs4 import BeautifulSoup
 
# scraping a wikipedia article
url_link = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/'
request = requests.get(url_link)
 
Soup = BeautifulSoup(request.text, 'lxml')
 
# creating a list of all common heading tags
heading_tags = ["h1", "h2", "h3"]
for tags in Soup.find_all(heading_tags):
    print(tags.name + ' -> ' + tags.text.strip())

Producción: 

h2 -> Related Articles
h2 -> Python3
h2 -> Python3
h2 -> Python3
h2 -> Python3
h2 -> Python3
h2 -> Python3

Publicación traducida automáticamente

Artículo escrito por mprerna802 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *