BeautifulSoup – Extraer párrafos de HTML

En este artículo, discutiremos cómo desechar párrafos de HTML usando Beautiful Soup

Método 1: usando bs4 y urllib.

Módulo necesario:

  • bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Para instalar el módulo-
pip install bs4.
  • urllib: urllib es un paquete que recopila varios módulos para trabajar con URL. También se puede instalar de la misma manera, es la mayor parte del integrado en el propio entorno.
pip install urllib

El archivo html contiene varias etiquetas y, como la etiqueta de anclaje <a>, la etiqueta de extensión <span>, la etiqueta de párrafo <p>, etc. Por lo tanto, la hermosa sopa nos ayuda a analizar el archivo html y obtener el resultado deseado, como obtener los párrafos. de un archivo url/html en particular.

Explicación: 

Después de importar los módulos urllib y bs4 , proporcionaremos una variable con una url que se leerá, la función urllib.request.urlopen() reenvía las requests al servidor para abrir la url. La función BeautifulSoup() nos ayuda a analizar el archivo html o dices la codificación en html. El bucle utilizado aquí con find_all() encuentra todas las etiquetas que contienen la etiqueta de párrafo <p></p> y el texto entre ellas se recopila mediante el método get_text() .

A continuación se muestra la implementación:

Python3

# importing modules
import urllib.request 
from bs4 import BeautifulSoup
  
# providing url
url = "https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed"
  
# opening the url for reading
html = urllib.request.urlopen(url)
  
# parsing the html file
htmlParse = BeautifulSoup(html, 'html.parser')
  
# getting all the paragraphs
for para in htmlParse.find_all("p"):
    print(para.get_text())

Producción:

Métodos 2: usando requests y bs4

Módulo necesario:

  • bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
  • requests: Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests

Acercarse:

  • Módulo de importación
  • Cree un documento HTML y especifique la etiqueta ‘<p>’ en el código
  • Pase el documento HTML a la función Beautifulsoup()
  • Use la etiqueta ‘P’ para extraer párrafos del objeto Beautifulsoup
  • Obtenga texto del documento HTML con get_text().

Código:

Python3

# import module 
import requests 
import pandas as pd 
from bs4 import BeautifulSoup 
  
# link for extract html data 
def getdata(url): 
    r = requests.get(url) 
    return r.text 
  
htmldata = getdata("https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed") 
soup = BeautifulSoup(htmldata, 'html.parser') 
data = '' 
for data in soup.find_all("p"): 
    print(data.get_text()) 

Producción:

Publicación traducida automáticamente

Artículo escrito por adityaprasad1308 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *