La clase NavigableString es proporcionada por Beautiful Soup, que es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso. Una string corresponde a un fragmento de texto dentro de una etiqueta. Beautiful Soup usa la clase NavigableString para contener estos fragmentos de texto.
Sintaxis:
<tag> String here </tag>
Los siguientes ejemplos explican el concepto de la clase NavigableString en Beautiful Soup.
Ejemplo 1: En este ejemplo, vamos a ver el tipo de una string.
Python3
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with a HTML page soup = BeautifulSoup(''' <html> <h2> Heading 1 </h2> <h1> Heading 2 </h1> </html> ''', "lxml") # Get the whole h2 tag tag = soup.h2 # Get the string inside the tag string = tag.string # Print the type print(type(string))
Producción:
<class 'bs4.element.NavigableString'>
Ejemplo 2: En este ejemplo, vamos a convertir NavigableString en una string Unicode.
Python3
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with a HTML page soup = BeautifulSoup(''' <html> <h2> Heading 1 </h2> <h1> Heading 2 </h1> </html> ''', "lxml") # Get the whole h2 tag tag = soup.h2 # Get the string inside the tag and convert # it into string string = str(tag.string) # Print the type print(type(string))
Producción:
<type 'str'>