El archivo CSV es un archivo de valores separados por comas que usa una coma para separar los valores. El archivo CSV es algo útil en el mundo actual cuando hablamos de aprendizaje automático, manejo de datos y visualización de datos. En este artículo, discutiremos cómo convertir una tabla HTML en un archivo CSV.
Convertir una tabla HTML en un archivo CSV en Python
Ejemplo: Supongamos que el archivo HTML se parece a,
La tabla HTML se puede convertir a un archivo CSV usando el módulo BeautifulSoup y Pandas de Python. Estos módulos no vienen integrados con Python. Para instalarlos, escriba el siguiente comando en la terminal.
pip install BeautifulSoup pip install pandas
Código Python3 para convertir la tabla HTML en un archivo CSV
# Importing the required modules import os import sys import pandas as pd from bs4 import BeautifulSoup path = 'html.html' # empty list data = [] # for getting the header from # the HTML file list_header = [] soup = BeautifulSoup(open(path),'html.parser') header = soup.find_all("table")[0].find("tr") for items in header: try: list_header.append(items.get_text()) except: continue # for getting the data HTML_data = soup.find_all("table")[0].find_all("tr")[1:] for element in HTML_data: sub_data = [] for sub_element in element: try: sub_data.append(sub_element.get_text()) except: continue data.append(sub_data) # Storing the data into Pandas # DataFrame dataFrame = pd.DataFrame(data = data, columns = list_header) # Converting Pandas DataFrame # into CSV file dataFrame.to_csv('Geeks.csv')
Producción: