La lista de contenidos es proporcionada por Beautiful Soup, que es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso. El contenido es una lista que contiene los elementos secundarios de la etiqueta.
Sintaxis:
tag.contents
Los siguientes ejemplos explican el concepto de contenido en Beautiful Soup.
Ejemplo 1: En este ejemplo, vamos a obtener el contenido del elemento.
Python3
# Import Beautiful Soup from bs4 import BeautifulSoup # Create the document doc = "<body><b> Hello world </b><body>" # Initialize the object with the document soup = BeautifulSoup(doc, "html.parser") # Get the whole content from the body tag contents = soup.body.contents # Print the contents print(contents)
Producción:
[<b> Hello world </b>, <body></body>]
Ejemplo 2: En este ejemplo vamos a ver el tipo de contenidos.
Python3
# Import Beautiful Soup from bs4 import BeautifulSoup # Create the document doc = "<body><b> Hello world </b><body>" # Initialize the object with the document soup = BeautifulSoup(doc, "html.parser") # Get the whole content from the body tag contents = soup.body.contents # Print the type of contents print(type(contents))
Producción:
<type 'list'>