Extraiga texto de un archivo PDF usando Python

Todos ustedes deben estar familiarizados con lo que son los archivos PDF. De hecho, son uno de los medios digitales más importantes y más utilizados. PDF significa formato de documento portátil . Utiliza la extensión .pdf . Se utiliza para presentar e intercambiar documentos de manera confiable, independientemente del software, hardware o sistema operativo.

Extraer texto de un archivo PDF

El paquete de Python PyPDF se puede usar para lograr lo que queremos (extracción de texto), aunque puede hacer más de lo que necesitamos. Este paquete también se puede utilizar para generar, descifrar y fusionar archivos PDF.

Nota: Para obtener más información, consulte Trabajar con archivos PDF en Python

Instalación

Para instalar este paquete, escriba el siguiente comando en la terminal.

pip install PyPDF2

Ejemplo:

PDF de entrada:

extract-pdf-text-python

# importing required modules 
import PyPDF2 
    
# creating a pdf file object 
pdfFileObj = open('example.pdf', 'rb') 
    
# creating a pdf reader object 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
    
# printing number of pages in pdf file 
print(pdfReader.numPages) 
    
# creating a page object 
pageObj = pdfReader.getPage(0) 
    
# extracting text from page 
print(pageObj.extractText()) 
    
# closing the pdf file object 
pdfFileObj.close() 

Producción:

extract-pdf-python

Tratemos de entender el código anterior en fragmentos:

  • pdfFileObj = open('example.pdf', 'rb')

    Abrimos el ejemplo.pdf en modo binario. y guardó el objeto de archivo como pdfFileObj .

  • pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

    Aquí, creamos un objeto de la clase PdfFileReader del módulo PyPDF2 y pasamos el objeto de archivo pdf y obtenemos un objeto de lector de pdf.

  • print(pdfReader.numPages)

    La propiedad numPages da el número de páginas en el archivo pdf. Por ejemplo, en nuestro caso, es 20 (ver primera línea de salida).

  • pageObj = pdfReader.getPage(0)

    Ahora, creamos un objeto de la clase PageObject del módulo PyPDF2. El objeto del lector de pdf tiene la función getPage() que toma el número de página (índice de formulario inicial 0) como argumento y devuelve el objeto de la página.

  • print(pageObj.extractText())

    El objeto de página tiene la función extractText() para extraer texto de la página pdf.

  • pdfFileObj.close()

    Por último, cerramos el objeto del archivo pdf.

Publicación traducida automáticamente

Artículo escrito por japneet121 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *