El raspado web es un proceso de uso de bots de software llamados raspadores web para extraer información del contenido HTML o XML de una página web. Beautiful Soup es una biblioteca utilizada para raspar datos a través de python. Beautiful Soup funciona junto con un analizador para proporcionar iteración, búsqueda y modificación del contenido que proporciona el analizador (en forma de árbol de análisis). Es bastante fácil rastrear las páginas web y encontrar el texto de una etiqueta dada usando Beautiful Soup.
En este artículo, discutiremos cómo encontrar el texto de la etiqueta dada.
Enfoque paso a paso:
- Primero importe la biblioteca.
Python3
from bs4 import BeautifulSoup import requests
- Ahora asigne la URL.
Python3
# assign URL url = "https://www.geeksforgeeks.org/"
- Obtenga el contenido HTML sin formato de la URL.
Python3
html_content = requests.get(url).text
- Ahora analice el contenido.
Python3
# Now that the content is ready, iterate # through the content using BeautifulSoup soup = BeautifulSoup(html_content, "html.parser")
- Después de analizar el contenido, buscamos una etiqueta específica e imprimimos su texto.
Python3
print(soup.find('title'))
A continuación se muestra el programa completo.
Python3
from bs4 import BeautifulSoup import requests # Assign URL url = "https://www.geeksforgeeks.org/" # Fetch raw HTML content html_content = requests.get(url).text # Now that the content is ready, iterate # through the content using BeautifulSoup: soup = BeautifulSoup(html_content, "html.parser") # similarly to get all the occurrences of a given tag print(soup.find('title').text)
Producción:
De manera similar, para obtener todas las ocurrencias de la etiqueta dada:
Python3
from bs4 import BeautifulSoup import requests # Assign URL url = "https://www.geeksforgeeks.org/" # Fetch raw HTML content html_content = requests.get(url).text # Now that the content is ready, iterate # through the content using BeautifulSoup: soup = BeautifulSoup(html_content, "html.parser") # similarly to get all the occurrences of a given tag texts = soup.find_all('p') for text in texts: print(text.get_text())
Producción:
Publicación traducida automáticamente
Artículo escrito por aniketparihar1718 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA