Prerrequisitos: Beautifulsoup
Beautifulsoup es un módulo de Python que se utiliza para el web scraping. Este artículo analiza cómo las etiquetas secundarias de las etiquetas HTML dadas se pueden raspar y mostrar.
Ejemplo de sitio web: https://www.geeksforgeeks.org/caching-page-tables/
Para el primer hijo:
Acercarse
- Módulo de importación
- Pasar la URL
- Página de solicitud
- Mostrar el primer hijo usando la función findChild()
Sintaxis:
encontrarNiño()
Ejemplo:
Python3
from bs4 import BeautifulSoup import requests # sample web page sample_web_page = 'https://www.geeksforgeeks.org/caching-page-tables/' # call get method to request that page page = requests.get(sample_web_page) # with the help of beautifulSoup and html parser create soup soup = BeautifulSoup(page.content, "html.parser") child_soup = soup.find('p') print("child : ", child_soup.findChild())
Producción:
niño: <a href=”https://www.geeksforgeeks.org/paging-in-operating-system/” rel=”noopener” target=”_blank”>Paging</a>
Para todos los niños:
Para recuperar elementos secundarios de la etiqueta HTML, tenemos la opción de usar .children o .contents . La diferencia entre los niños y los contenidos es que los niños no toman ninguna memoria, nos da una lista iterable y los contenidos dan la etiqueta del niño, pero usa la memoria. Para archivos HTML grandes, usar niños es una mejor opción y para almacenar contenido de valor necesario será mejor.
Acercarse
- Módulo de importación
- Pasar la URL del sitio web
- Página de solicitud
- Use cualquiera de las palabras clave para mostrar las etiquetas secundarias
Usando .niños:
Para Recuperar todos los niños se usará .niños.
Ejemplo:
Python3
from bs4 import BeautifulSoup import requests # sample web page sample_web_page = 'https://www.geeksforgeeks.org/caching-page-tables/' # call get method to request that page page = requests.get(sample_web_page) # with the help of beautifulSoup and html parser create soup soup = BeautifulSoup(page.content, "html.parser") child_soup = soup.find('p') for i in child_soup.children: print("child : ", i)
Producción:
niño: <a href=”https://www.geeksforgeeks.org/paging-in-operating-system/” rel=”noopener” target=”_blank”>Paging</a>
child: es un esquema de gestión de memoria que permite que el espacio de direcciones físicas de un proceso no sea contiguo. La idea básica de la paginación es dividir la memoria física en bloques de tamaño fijo llamados
niño: <strong>marcos</strong>
niño: y la memoria lógica en bloques del mismo tamaño llamados
hijo: <strong>páginas</strong>
niño : . Mientras se ejecuta el proceso, las páginas requeridas de ese proceso se cargan en los marcos disponibles desde su fuente, que es un disco o cualquier dispositivo de almacenamiento de respaldo.
Usando .contenidos
También devolverá todas las etiquetas secundarias y las almacenará en la memoria.
Ejemplo
Python3
from bs4 import BeautifulSoup import requests # sample web page sample_web_page = 'https://www.geeksforgeeks.org/caching-page-tables/' # call get method to request that page page = requests.get(sample_web_page) # with the help of beautifulSoup and html parser create soup soup = BeautifulSoup(page.content, "html.parser") child_soup = soup.find('p') print("child : ", child_soup.contents)
Producción
niño: [<a href=”https://www.geeksforgeeks.org/paging-in-operating-system/” rel=”noopener” target=”_blank”>Paging</a>, ‘ es un esquema de administración de memoria lo que permite que el espacio de direcciones físicas de un proceso no sea contiguo. La idea básica de la paginación es dividir la memoria física en bloques de tamaño fijo llamados ‘, <strong>marcos</strong>, ‘ y la memoria lógica en bloques del mismo tamaño llamados ‘, <strong>páginas</strong>, ‘. Mientras se ejecuta el proceso, las páginas requeridas de ese proceso se cargan en los marcos disponibles desde su fuente, que es un disco o cualquier dispositivo de almacenamiento de respaldo.’]
Publicación traducida automáticamente
Artículo escrito por cse1604310056 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA