La ingesta de datos es el proceso de obtener e importar los datos para el almacenamiento en la base de datos. En este artículo, exploramos diferentes técnicas de ingestión de datos utilizadas para extraer los datos del archivo de Excel en Python y comparar sus tiempos de ejecución.
Supongamos que el archivo de Excel se ve así:
Usando la biblioteca xlrd
Usando xlrd
el módulo, uno puede recuperar información de una hoja de cálculo. Por ejemplo, en Python se puede leer, escribir o modificar los datos. Además, es posible que el usuario tenga que revisar varias hojas y recuperar datos según algunos criterios o modificar algunas filas y columnas y hacer mucho trabajo.
import xlrd import time # Time variable for finding the # difference t1 = time.time() #Open the workbook to read the # excel file workbook = xlrd.open_workbook('excel.xls') #Get the first sheet in the workbook sheet = workbook.sheet_by_index(0) #Read row data line by line for i in range(sheet.nrows): row = sheet.row_values(i) print(row) t2 = time.time() print("\nTime taken by xlrd:") print(t2-t1)
Producción:
usando pandas
La biblioteca de análisis de datos de Python es una poderosa herramienta utilizada por los científicos de datos. Ayuda en la ingesta de datos y la exploración de datos.
import pandas as pd import time # Time variable for finding the # difference t1 = time.time() data = pd.read_excel('excel.xls') print(data.head()) t2 = time.time() print("\nTime taken by xlrd:") print(t2-t1)
Producción:
Usando el marco de datos dask
Un Dask DataFrame es un gran DataFrame paralelo compuesto por muchos Pandas DataFrames más pequeños, divididos a lo largo del índice.
import dask import dask.dataframe as dd import pandas as pd from dask.delayed import delayed import time # Time variable for finding the # difference t1 = time.time() parts = dask.delayed(pd.read_excel)('excel.xls', sheet_name=0) df = dd.from_delayed(parts) print(df.head()) t2 = time.time() print("\nTime taken by Dask:") print(t2-t1)
Producción:
Publicación traducida automáticamente
Artículo escrito por bhavanabhasker17 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA