Requisito previo: BeautifulSoup , Requests
elimine todas las etiquetas de estilo, secuencias de comandos y HTML con un jabón hermoso.
Módulos Requeridos:
- bs4: Beautiful Soup (bs4) es una biblioteca de Python que se utiliza principalmente para extraer datos de HTML, XML y otros lenguajes de marcado. Es una de las bibliotecas más utilizadas para Web Scraping.
Ejecute el siguiente comando en la terminal para instalar esta biblioteca:
pip install bs4
- requests: esta biblioteca se utiliza para realizar requests HTTP en python.
Ejecute el siguiente comando en la terminal para instalar esta biblioteca:
pip install requests
Acercarse:
- Importar biblioteca bs4
- Crear un documento HTML
- Analizar el contenido en un objeto BeautifulSoup
- Iterar sobre los datos para eliminar las etiquetas del documento usando el método decompose()
- Use el método stripped_strings() para recuperar el contenido de la etiqueta
- Imprimir los datos extraídos
Implementación:
Python3
# Import Module from bs4 import BeautifulSoup # HTML Document HTML_DOC = """ <html> <head> <title> Geeksforgeeks </title> <style>.call {background-color:black;} </style> <script>getit</script> </head> <body> is a <div>Computer Science portal.</div> </body> </html> """ # Function to remove tags def remove_tags(html): # parse html content soup = BeautifulSoup(html, "html.parser") for data in soup(['style', 'script']): # Remove tags data.decompose() # return data by retrieving the tag content return ' '.join(soup.stripped_strings) # Print the extracted data print(remove_tags(HTML_DOC))
Producción:
Geeksforgeeks is a Computer Science portal.
Eliminación de todas las etiquetas de estilo, secuencias de comandos y HTML de una URL
Acercarse:
- Importar bs4 y biblioteca de requests
- Obtenga contenido de la URL dada usando la instancia de requests
- Analizar el contenido en un objeto BeautifulSoup
- Iterar sobre los datos para eliminar las etiquetas del documento usando el método decompose()
- Use el método stripped_strings() para recuperar el contenido de la etiqueta
- Imprimir los datos extraídos
Implementación:
Python3
# Import Module from bs4 import BeautifulSoup import requests # Website URL URL = 'https://www.geeksforgeeks.org/data-structures/' # Page content from Website URL page = requests.get(URL) # Function to remove tags def remove_tags(html): # parse html content soup = BeautifulSoup(html, "html.parser") for data in soup(['style', 'script']): # Remove tags data.decompose() # return data by retrieving the tag content return ' '.join(soup.stripped_strings) # Print the extracted data print(remove_tags(page.content))
Producción:
Publicación traducida automáticamente
Artículo escrito por yuvraj_chandra y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA