¿Cómo buscar en el árbol de análisis usando BeautifulSoup?

Buscar en el árbol de análisis significa que necesitamos encontrar la etiqueta y el contenido del árbol HTML. Esto puede hacerse de muchas maneras. Pero el método más utilizado para buscar en el árbol de análisis es el método find() y find_all(). Con la ayuda de esto, podemos analizar el árbol HTML usando Beautifulsoup .

Para buscar en el árbol de análisis, siga los pasos a continuación.

Paso 1: para raspar, necesitamos importar el módulo beautifulsoup e importar el método de requests para solicitar la página del sitio web .

from bs4 import BeautifulSoup
import requests

Paso 2: El segundo paso será crear una sopa del sitio web o página HTML con el analizador HTML y la función beautifulsoup.

BeautifulSoup(sample_website, 'html.parser')

Paso 3: Podemos buscar en el árbol de análisis con dos métodos en sopa: el primero es el método de búsqueda y el segundo es el método de búsqueda de todos. En el método de búsqueda, devolverá el primer árbol HTML que satisfará la condición y el método find_all devolverá todo el árbol de análisis HTML que satisfará la condición.

Ejemplo 1: Usar el método find()

Python3

from bs4 import BeautifulSoup
import requests
  
  
# sample website
sample_website = 'https://www.geeksforgeeks.org/difference-between-article-and-blog/'
  
# call get method to request the page
page = requests.get(sample_website)
  
# with the help of BeautifulSoup method and
# html parser created soup
soup = BeautifulSoup(page.content, 'html.parser')
  
# With the help of find method perform searching 
# in parser tree
print(soup.find('th'))

Producción:

<th>S.No.</th>

Ejemplo 2: Uso del método find_all()

Python3

from bs4 import BeautifulSoup
import requests
  
  
# sample website
sample_website = 'https://www.geeksforgeeks.org/difference-between-article-and-blog/'
  
# call get method to request the page
page = requests.get(sample_website)
  
# with the help of BeautifulSoup method and html
# parser created soup
soup = BeautifulSoup(page.content, 'html.parser')
  
# With the help of find_all method perform searching
# in parser tree
print(soup.find_all('th'))

    

Producción:

[<th>S.No.</th>, <th>ARTICLE</th>, <th>BLOG</th>]

Publicación traducida automáticamente

Artículo escrito por vipinyadav15799 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *