Buscar en el árbol de análisis significa que necesitamos encontrar la etiqueta y el contenido del árbol HTML. Esto puede hacerse de muchas maneras. Pero el método más utilizado para buscar en el árbol de análisis es el método find() y find_all(). Con la ayuda de esto, podemos analizar el árbol HTML usando Beautifulsoup .
Para buscar en el árbol de análisis, siga los pasos a continuación.
Paso 1: para raspar, necesitamos importar el módulo beautifulsoup e importar el método de requests para solicitar la página del sitio web .
from bs4 import BeautifulSoup import requests
Paso 2: El segundo paso será crear una sopa del sitio web o página HTML con el analizador HTML y la función beautifulsoup.
BeautifulSoup(sample_website, 'html.parser')
Paso 3: Podemos buscar en el árbol de análisis con dos métodos en sopa: el primero es el método de búsqueda y el segundo es el método de búsqueda de todos. En el método de búsqueda, devolverá el primer árbol HTML que satisfará la condición y el método find_all devolverá todo el árbol de análisis HTML que satisfará la condición.
Ejemplo 1: Usar el método find()
Python3
from bs4 import BeautifulSoup import requests # sample website sample_website = 'https://www.geeksforgeeks.org/difference-between-article-and-blog/' # call get method to request the page page = requests.get(sample_website) # with the help of BeautifulSoup method and # html parser created soup soup = BeautifulSoup(page.content, 'html.parser') # With the help of find method perform searching # in parser tree print(soup.find('th'))
Producción:
<th>S.No.</th>
Ejemplo 2: Uso del método find_all()
Python3
from bs4 import BeautifulSoup import requests # sample website sample_website = 'https://www.geeksforgeeks.org/difference-between-article-and-blog/' # call get method to request the page page = requests.get(sample_website) # with the help of BeautifulSoup method and html # parser created soup soup = BeautifulSoup(page.content, 'html.parser') # With the help of find_all method perform searching # in parser tree print(soup.find_all('th'))
Producción:
[<th>S.No.</th>, <th>ARTICLE</th>, <th>BLOG</th>]
Publicación traducida automáticamente
Artículo escrito por vipinyadav15799 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA