¿Cómo convertir un archivo PDF a un archivo de Excel usando Python?

En este artículo, veremos cómo convertir un archivo PDF a Excel o CSV usando Python. Se puede hacer con varios métodos, aquí vamos a usar algunos métodos.

Método 1: Usar pdftables_api 

Aquí utilizará el módulo pdftables_api para convertir el archivo PDF a cualquier otro formato. basado en la web

Instalación:

pip install git+https://github.com/pdftables/python-pdftables-api.git

Después de la instalación, necesita una CLAVE API. Vaya a PDFTables.com y regístrese, luego visite la página API para ver su CLAVE API.

Para convertir un archivo PDF en un archivo de Excel, utilizaremos el método xml() .

Sintaxis:

xml(pdf_path, xml_path)

A continuación se muestra la implementación:

Archivo PDF utilizado:

ARCHIVO PDF

Python3

# Import Module
import pdftables_api
  
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
  
# PDf to Excel 
# (Hello.pdf, Hello)
conversion.xlsx("pdf_file_path", "output_file_path")

Producción:

ARCHIVO EXCEL

Método 2: Usar tabula-py

Aquí usará el Módulo tabula-py para convertir el archivo PDF a cualquier otro formato.

Instalación:

pip install tabula-py

Antes de comenzar, primero debemos instalar Java y agregar una carpeta de instalación de Java a la variable PATH.

  • Instale Java haga clic aquí
  • Agregue la carpeta de instalación de Java (C:\Archivos de programa (x86)\Java\jre1.8.0_251\bin) a la variable de ruta de entorno

Acercarse:

  • Lea el archivo PDF usando el método read_pdf() .
  • Luego, convertiremos los archivos PDF en un archivo de Excel usando el método to_excel() .

Sintaxis:

read_pdf(PDF File Path, pages = Number of pages, **agrs)

A continuación se muestra la implementación:

Archivo PDF utilizado:

ARCHIVO PDF

Python3

# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf("PDF File Path", pages = 1)[0]
  
# Convert into Excel File
df.to_excel('Excel File Path')

Producción:

ARCHIVO EXCEL

Publicación traducida automáticamente

Artículo escrito por abhigoya y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *