Obtenga todas las etiquetas HTML con BeautifulSoup

Web scraping es un proceso de uso de bots como software llamado web scrapers para extraer información de contenido HTML o XML. Beautiful Soup es una de esas bibliotecas que se utiliza para raspar datos a través de python. Beautiful Soup analiza el contenido HTML de la página web y lo recopila para proporcionar funciones de iteración, búsqueda y modificación. Para proporcionar estas funcionalidades, funciona con un analizador que convierte el contenido en un árbol de análisis. Usando un analizador con el que se sienta cómodo Es bastante fácil rastrear las páginas web usando BeautifulSoup.  

Para obtener todas las etiquetas HTML de una página web utilizando la biblioteca BeautifulSoup, primero importe BeautifulSoup y solicite la biblioteca para realizar una solicitud GET a la página web.

Enfoque paso a paso:

  • Importe los módulos requeridos.

Python3

from bs4 import BeautifulSoup
import requests
  • Después de importar la biblioteca, ahora asigne una variable de URL con la URL de la página web y realice una solicitud GET para obtener el contenido HTML sin formato:

Python3

# Assign URL
url = "https://www.geeksforgeeks.org/"
  
# Make a GET request to fetch the raw HTML content
html_content = requests.get(url).text
  • Ahora analice el contenido HTML:

Python3

# Parse the html content using any parser 
soup = BeautifulSoup(html_content,"html.parser")
  • Ahora, para obtener todas las etiquetas HTML de la página web, ejecute un ciclo para el atributo .name de la etiqueta usando la función find_all():

Python3

[tag.name for tag in soup.find_all()]

A continuación el programa completo:

Python3

# Import modules
from bs4 import BeautifulSoup
import requests
  
# Assign URL
url = "https://www.geeksforgeeks.org/"
  
# Make a GET request to fetch the raw HTML content
html_content = requests.get(url).text
  
# Parse the html content using any parser
soup = BeautifulSoup(html_content, "html.parser")
  
# Display HTML tags
[tag.name for tag in soup.find_all()]

Producción:

['html',
 'head',
 'meta',
 'meta',
 'meta',
 'link',
 'meta',
 'meta',
 'meta',
 'meta',
 'meta',
 'script',
 'script',
 'link',
 'title',
 'link',
 'link',
 'script',
 'script']

Publicación traducida automáticamente

Artículo escrito por aniketparihar1718 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *