Convierta la tabla HTML en un archivo CSV en python

El archivo CSV es un archivo de valores separados por comas que usa una coma para separar los valores. El archivo CSV es algo útil en el mundo actual cuando hablamos de aprendizaje automático, manejo de datos y visualización de datos. En este artículo, discutiremos cómo convertir una tabla HTML en un archivo CSV.

Convertir una tabla HTML en un archivo CSV en Python

Ejemplo: Supongamos que el archivo HTML se parece a,

python-html-table-to-csv

La tabla HTML se puede convertir a un archivo CSV usando el módulo BeautifulSoup y Pandas de Python. Estos módulos no vienen integrados con Python. Para instalarlos, escriba el siguiente comando en la terminal.

pip install BeautifulSoup
pip install pandas

Código Python3 para convertir la tabla HTML en un archivo CSV

# Importing the required modules 
import os
import sys
import pandas as pd
from bs4 import BeautifulSoup
   
path = 'html.html'
   
# empty list
data = []
   
# for getting the header from
# the HTML file
list_header = []
soup = BeautifulSoup(open(path),'html.parser')
header = soup.find_all("table")[0].find("tr")
  
for items in header:
    try:
        list_header.append(items.get_text())
    except:
        continue
  
# for getting the data 
HTML_data = soup.find_all("table")[0].find_all("tr")[1:]
  
for element in HTML_data:
    sub_data = []
    for sub_element in element:
        try:
            sub_data.append(sub_element.get_text())
        except:
            continue
    data.append(sub_data)
  
# Storing the data into Pandas
# DataFrame 
dataFrame = pd.DataFrame(data = data, columns = list_header)
   
# Converting Pandas DataFrame
# into CSV file
dataFrame.to_csv('Geeks.csv')

Producción:

python-html-to-csv

Publicación traducida automáticamente

Artículo escrito por SohelRaja y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *