Encuentra el texto de la etiqueta dada usando BeautifulSoup

El raspado web es un proceso de uso de bots de software llamados raspadores web para extraer información del contenido HTML o XML de una página web. Beautiful Soup es una biblioteca utilizada para raspar datos a través de python. Beautiful Soup funciona junto con un analizador para proporcionar iteración, búsqueda y modificación del contenido que proporciona el analizador (en forma de árbol de análisis). Es bastante fácil rastrear las páginas web y encontrar el texto de una etiqueta dada usando Beautiful Soup.

En este artículo, discutiremos cómo encontrar el texto de la etiqueta dada.

Enfoque paso a paso:

Primero importe la biblioteca.

Python3

from bs4 import BeautifulSoup
import requests

Ahora asigne la URL.

Python3

# assign URL
url = "https://www.geeksforgeeks.org/"

Obtenga el contenido HTML sin formato de la URL.

Python3

html_content = requests.get(url).text

Ahora analice el contenido.

Python3

# Now that the content is ready, iterate
# through the content using BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")

Después de analizar el contenido, buscamos una etiqueta específica e imprimimos su texto.

Python3

print(soup.find('title'))

A continuación se muestra el programa completo.

Python3

from bs4 import BeautifulSoup
import requests
 
 
# Assign URL
url = "https://www.geeksforgeeks.org/"
 
# Fetch raw HTML content
html_content = requests.get(url).text
 
# Now that the content is ready, iterate
# through the content using BeautifulSoup:
soup = BeautifulSoup(html_content, "html.parser")
 
# similarly to get all the occurrences of a given tag
print(soup.find('title').text)

Producción:

De manera similar, para obtener todas las ocurrencias de la etiqueta dada:

Python3

from bs4 import BeautifulSoup
import requests
 
# Assign URL
url = "https://www.geeksforgeeks.org/"
 
# Fetch raw HTML content
html_content = requests.get(url).text
 
# Now that the content is ready, iterate
# through the content using BeautifulSoup:
soup = BeautifulSoup(html_content, "html.parser")
 
# similarly to get all the occurrences of a given tag
texts = soup.find_all('p')
for text in texts:
    print(text.get_text())

Producción:

Publicación traducida automáticamente

Artículo escrito por aniketparihar1718 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Python3

Python3

Python3

Python3

Python3

Python3

Python3

Deja una respuesta Cancelar la respuesta