Web scraping es un proceso de uso de bots como software llamado web scrapers para extraer información de contenido HTML o XML. Beautiful Soup es una de esas bibliotecas que se utiliza para raspar datos a través de python. Beautiful Soup analiza el contenido HTML de la página web y lo recopila para proporcionar funciones de iteración, búsqueda y modificación. Para proporcionar estas funcionalidades, funciona con un analizador que convierte el contenido en un árbol de análisis. Usando un analizador con el que se sienta cómodo Es bastante fácil rastrear las páginas web usando BeautifulSoup.
Para obtener todas las etiquetas HTML de una página web utilizando la biblioteca BeautifulSoup, primero importe BeautifulSoup y solicite la biblioteca para realizar una solicitud GET a la página web.
Enfoque paso a paso:
- Importe los módulos requeridos.
Python3
from bs4 import BeautifulSoup import requests
- Después de importar la biblioteca, ahora asigne una variable de URL con la URL de la página web y realice una solicitud GET para obtener el contenido HTML sin formato:
Python3
# Assign URL url = "https://www.geeksforgeeks.org/" # Make a GET request to fetch the raw HTML content html_content = requests.get(url).text
- Ahora analice el contenido HTML:
Python3
# Parse the html content using any parser soup = BeautifulSoup(html_content,"html.parser")
- Ahora, para obtener todas las etiquetas HTML de la página web, ejecute un ciclo para el atributo .name de la etiqueta usando la función find_all():
Python3
[tag.name for tag in soup.find_all()]
A continuación el programa completo:
Python3
# Import modules from bs4 import BeautifulSoup import requests # Assign URL url = "https://www.geeksforgeeks.org/" # Make a GET request to fetch the raw HTML content html_content = requests.get(url).text # Parse the html content using any parser soup = BeautifulSoup(html_content, "html.parser") # Display HTML tags [tag.name for tag in soup.find_all()]
Producción:
['html', 'head', 'meta', 'meta', 'meta', 'link', 'meta', 'meta', 'meta', 'meta', 'meta', 'script', 'script', 'link', 'title', 'link', 'link', 'script', 'script']
Publicación traducida automáticamente
Artículo escrito por aniketparihar1718 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA