Obtenga una lista de todas las etiquetas de encabezado usando BeautifulSoup

Para imprimir todas las etiquetas de encabezado usando BeautifulSoup, usamos el método find_all() . El método find_all es uno de los métodos más comunes en BeautifulSoup. Mira a través de una etiqueta y recupera todas las ocurrencias de esa etiqueta.

Sintaxis: find_all(name, attrs, recursive, string, limit, **kwargs)

Un documento HTML consta de las siguientes etiquetas: h1, h2, h3, h4, h5 y h6. Las etiquetas HTML más utilizadas en las páginas web son h1, h2 y h3, y para encontrarlas pasamos una lista de etiquetas como argumento al método find_all().

Pasos:

importar las requests de bibliotecas y BeautifulSoup
pasar una URL a una variable
use la biblioteca de requests para obtener la URL
crear un objeto BeautifulSoup
crear una lista de etiquetas de encabezado()
iterar sobre todas las etiquetas de encabezado usando el método find_all()

Ejemplo:

Python3

# Python program to print all heading tags
import requests
from bs4 import BeautifulSoup
 
# scraping a wikipedia article
url_link = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/'
request = requests.get(url_link)
 
Soup = BeautifulSoup(request.text, 'lxml')
 
# creating a list of all common heading tags
heading_tags = ["h1", "h2", "h3"]
for tags in Soup.find_all(heading_tags):
    print(tags.name + ' -> ' + tags.text.strip())

Producción:

h2 -> Related Articles
h2 -> Python3
h2 -> Python3
h2 -> Python3
h2 -> Python3
h2 -> Python3
h2 -> Python3

Publicación traducida automáticamente

Artículo escrito por mprerna802 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Python3

Deja una respuesta Cancelar la respuesta