Ingestión de datos a través de Excel: Comparación de tiempos de ejecución

La ingesta de datos es el proceso de obtener e importar los datos para el almacenamiento en la base de datos. En este artículo, exploramos diferentes técnicas de ingestión de datos utilizadas para extraer los datos del archivo de Excel en Python y comparar sus tiempos de ejecución.

Supongamos que el archivo de Excel se ve así:

data-ingestion-python

Usando la biblioteca xlrd

Usando xlrdel módulo, uno puede recuperar información de una hoja de cálculo. Por ejemplo, en Python se puede leer, escribir o modificar los datos. Además, es posible que el usuario tenga que revisar varias hojas y recuperar datos según algunos criterios o modificar algunas filas y columnas y hacer mucho trabajo.

import xlrd
import time
  
  
# Time variable for finding the 
# difference
t1 = time.time()
  
#Open the workbook to read the
# excel file 
workbook = xlrd.open_workbook('excel.xls')
   
#Get the first sheet in the workbook 
sheet = workbook.sheet_by_index(0)
  
#Read row data line by line 
for i in range(sheet.nrows):
    row = sheet.row_values(i) 
    print(row)
      
t2 = time.time()
print("\nTime taken by xlrd:")
print(t2-t1)

Producción:

data-ingestion-xlrd

usando pandas

La biblioteca de análisis de datos de Python es una poderosa herramienta utilizada por los científicos de datos. Ayuda en la ingesta de datos y la exploración de datos.

import pandas as pd 
import time
  
  
# Time variable for finding the 
# difference
t1 = time.time()
  
data = pd.read_excel('excel.xls') 
print(data.head())
  
t2 = time.time()
print("\nTime taken by xlrd:")
print(t2-t1)

Producción:

data-ingestion-pandas1

Usando el marco de datos dask

Un Dask DataFrame es un gran DataFrame paralelo compuesto por muchos Pandas DataFrames más pequeños, divididos a lo largo del índice.

import dask
import dask.dataframe as dd
import pandas as pd 
from dask.delayed import delayed
import time
  
  
# Time variable for finding the 
# difference
t1 = time.time()
  
   
parts = dask.delayed(pd.read_excel)('excel.xls', 
                                    sheet_name=0)
df = dd.from_delayed(parts)
   
print(df.head())
  
t2 = time.time()
print("\nTime taken by Dask:")
print(t2-t1)

Producción:

data-ingestion-dask

Publicación traducida automáticamente

Artículo escrito por bhavanabhasker17 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *