En este artículo, discutiremos cómo desechar párrafos de HTML usando Beautiful Soup
Método 1: usando bs4 y urllib.
Módulo necesario:
- bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Para instalar el módulo-
pip install bs4.
- urllib: urllib es un paquete que recopila varios módulos para trabajar con URL. También se puede instalar de la misma manera, es la mayor parte del integrado en el propio entorno.
pip install urllib
El archivo html contiene varias etiquetas y, como la etiqueta de anclaje <a>, la etiqueta de extensión <span>, la etiqueta de párrafo <p>, etc. Por lo tanto, la hermosa sopa nos ayuda a analizar el archivo html y obtener el resultado deseado, como obtener los párrafos. de un archivo url/html en particular.
Explicación:
Después de importar los módulos urllib y bs4 , proporcionaremos una variable con una url que se leerá, la función urllib.request.urlopen() reenvía las requests al servidor para abrir la url. La función BeautifulSoup() nos ayuda a analizar el archivo html o dices la codificación en html. El bucle utilizado aquí con find_all() encuentra todas las etiquetas que contienen la etiqueta de párrafo <p></p> y el texto entre ellas se recopila mediante el método get_text() .
A continuación se muestra la implementación:
Python3
# importing modules import urllib.request from bs4 import BeautifulSoup # providing url url = "https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed" # opening the url for reading html = urllib.request.urlopen(url) # parsing the html file htmlParse = BeautifulSoup(html, 'html.parser') # getting all the paragraphs for para in htmlParse.find_all("p"): print(para.get_text())
Producción:
Métodos 2: usando requests y bs4
Módulo necesario:
- bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
- requests: Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Acercarse:
- Módulo de importación
- Cree un documento HTML y especifique la etiqueta ‘<p>’ en el código
- Pase el documento HTML a la función Beautifulsoup()
- Use la etiqueta ‘P’ para extraer párrafos del objeto Beautifulsoup
- Obtenga texto del documento HTML con get_text().
Código:
Python3
# import module import requests import pandas as pd from bs4 import BeautifulSoup # link for extract html data def getdata(url): r = requests.get(url) return r.text htmldata = getdata("https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed") soup = BeautifulSoup(htmldata, 'html.parser') data = '' for data in soup.find_all("p"): print(data.get_text())
Producción:
Publicación traducida automáticamente
Artículo escrito por adityaprasad1308 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA