Para imprimir todas las etiquetas de encabezado usando BeautifulSoup, usamos el método find_all() . El método find_all es uno de los métodos más comunes en BeautifulSoup. Mira a través de una etiqueta y recupera todas las ocurrencias de esa etiqueta.
Sintaxis: find_all(name, attrs, recursive, string, limit, **kwargs)
Un documento HTML consta de las siguientes etiquetas: h1, h2, h3, h4, h5 y h6. Las etiquetas HTML más utilizadas en las páginas web son h1, h2 y h3, y para encontrarlas pasamos una lista de etiquetas como argumento al método find_all().
Pasos:
- importar las requests de bibliotecas y BeautifulSoup
- pasar una URL a una variable
- use la biblioteca de requests para obtener la URL
- crear un objeto BeautifulSoup
- crear una lista de etiquetas de encabezado()
- iterar sobre todas las etiquetas de encabezado usando el método find_all()
Ejemplo:
Python3
# Python program to print all heading tags import requests from bs4 import BeautifulSoup # scraping a wikipedia article url_link = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/' request = requests.get(url_link) Soup = BeautifulSoup(request.text, 'lxml') # creating a list of all common heading tags heading_tags = ["h1", "h2", "h3"] for tags in Soup.find_all(heading_tags): print(tags.name + ' -> ' + tags.text.strip())
Producción:
h2 -> Related Articles h2 -> Python3 h2 -> Python3 h2 -> Python3 h2 -> Python3 h2 -> Python3 h2 -> Python3
Publicación traducida automáticamente
Artículo escrito por mprerna802 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA