En este artículo, veremos cómo convertir un archivo PDF a Excel o CSV usando Python. Se puede hacer con varios métodos, aquí vamos a usar algunos métodos.
Método 1: Usar pdftables_api
Aquí utilizará el módulo pdftables_api para convertir el archivo PDF a cualquier otro formato. basado en la web
Instalación:
pip install git+https://github.com/pdftables/python-pdftables-api.git
Después de la instalación, necesita una CLAVE API. Vaya a PDFTables.com y regístrese, luego visite la página API para ver su CLAVE API.
Para convertir un archivo PDF en un archivo de Excel, utilizaremos el método xml() .
Sintaxis:
xml(pdf_path, xml_path)
A continuación se muestra la implementación:
Archivo PDF utilizado:
Python3
# Import Module import pdftables_api # API KEY VERIFICATION conversion = pdftables_api.Client('API KEY') # PDf to Excel # (Hello.pdf, Hello) conversion.xlsx("pdf_file_path", "output_file_path")
Producción:
Método 2: Usar tabula-py
Aquí usará el Módulo tabula-py para convertir el archivo PDF a cualquier otro formato.
Instalación:
pip install tabula-py
Antes de comenzar, primero debemos instalar Java y agregar una carpeta de instalación de Java a la variable PATH.
- Instale Java haga clic aquí
- Agregue la carpeta de instalación de Java (C:\Archivos de programa (x86)\Java\jre1.8.0_251\bin) a la variable de ruta de entorno
Acercarse:
- Lea el archivo PDF usando el método read_pdf() .
- Luego, convertiremos los archivos PDF en un archivo de Excel usando el método to_excel() .
Sintaxis:
read_pdf(PDF File Path, pages = Number of pages, **agrs)
A continuación se muestra la implementación:
Archivo PDF utilizado:
Python3
# Import Module import tabula # Read PDF File # this contain a list df = tabula.read_pdf("PDF File Path", pages = 1)[0] # Convert into Excel File df.to_excel('Excel File Path')
Producción: