Recuperar hijos de la etiqueta html usando BeautifulSoup

Prerrequisitos: Beautifulsoup

Beautifulsoup es un módulo de Python que se utiliza para el web scraping. Este artículo analiza cómo las etiquetas secundarias de las etiquetas HTML dadas se pueden raspar y mostrar.

Ejemplo de sitio web: https://www.geeksforgeeks.org/caching-page-tables/

Para el primer hijo:

Acercarse

  • Módulo de importación
  • Pasar la URL
  • Página de solicitud
  • Mostrar el primer hijo usando la función findChild()

Sintaxis:

encontrarNiño()

Ejemplo:

Python3

from bs4 import BeautifulSoup
import requests
  
# sample web page
sample_web_page = 'https://www.geeksforgeeks.org/caching-page-tables/'
  
# call get method to request that page
page = requests.get(sample_web_page)
  
# with the help of beautifulSoup and html parser create soup
soup = BeautifulSoup(page.content, "html.parser")
  
child_soup = soup.find('p')
  
print("child :  ", child_soup.findChild())

Producción:

niño: <a href=”https://www.geeksforgeeks.org/paging-in-operating-system/” rel=”noopener” target=”_blank”>Paging</a>

Para todos los niños:

Para recuperar elementos secundarios de la etiqueta HTML, tenemos la opción de usar .children o .contents . La diferencia entre los niños y los contenidos es que los niños no toman ninguna memoria, nos da una lista iterable y los contenidos dan la etiqueta del niño, pero usa la memoria. Para archivos HTML grandes, usar niños es una mejor opción y para almacenar contenido de valor necesario será mejor.

Acercarse

  • Módulo de importación
  • Pasar la URL del sitio web
  • Página de solicitud
  • Use cualquiera de las palabras clave para mostrar las etiquetas secundarias

Usando .niños:

Para Recuperar todos los niños se usará .niños.

Ejemplo:

Python3

from bs4 import BeautifulSoup
import requests
  
# sample web page
sample_web_page = 'https://www.geeksforgeeks.org/caching-page-tables/'
  
# call get method to request that page
page = requests.get(sample_web_page)
  
# with the help of beautifulSoup and html parser create soup
soup = BeautifulSoup(page.content, "html.parser")
child_soup = soup.find('p')
  
for i in child_soup.children:
    print("child :  ", i)

Producción:

niño: <a href=”https://www.geeksforgeeks.org/paging-in-operating-system/” rel=”noopener” target=”_blank”>Paging</a>

child: es un esquema de gestión de memoria que permite que el espacio de direcciones físicas de un proceso no sea contiguo. La idea básica de la paginación es dividir la memoria física en bloques de tamaño fijo llamados 

niño: <strong>marcos</strong>

niño: y la memoria lógica en bloques del mismo tamaño llamados 

hijo: <strong>páginas</strong>

niño : . Mientras se ejecuta el proceso, las páginas requeridas de ese proceso se cargan en los marcos disponibles desde su fuente, que es un disco o cualquier dispositivo de almacenamiento de respaldo.

Usando .contenidos

También devolverá todas las etiquetas secundarias y las almacenará en la memoria.

Ejemplo

Python3

from bs4 import BeautifulSoup
import requests
  
# sample web page
sample_web_page = 'https://www.geeksforgeeks.org/caching-page-tables/'
  
# call get method to request that page
page = requests.get(sample_web_page)
  
# with the help of beautifulSoup and html parser create soup
soup = BeautifulSoup(page.content, "html.parser")
  
child_soup = soup.find('p')
  
print("child :  ", child_soup.contents)

Producción

niño: [<a href=”https://www.geeksforgeeks.org/paging-in-operating-system/” rel=”noopener” target=”_blank”>Paging</a>, ‘ es un esquema de administración de memoria lo que permite que el espacio de direcciones físicas de un proceso no sea contiguo. La idea básica de la paginación es dividir la memoria física en bloques de tamaño fijo llamados ‘, <strong>marcos</strong>, ‘ y la memoria lógica en bloques del mismo tamaño llamados ‘, <strong>páginas</strong>, ‘. Mientras se ejecuta el proceso, las páginas requeridas de ese proceso se cargan en los marcos disponibles desde su fuente, que es un disco o cualquier dispositivo de almacenamiento de respaldo.’]

Publicación traducida automáticamente

Artículo escrito por cse1604310056 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *