Todos ustedes deben estar familiarizados con lo que son los archivos PDF. De hecho, son uno de los medios digitales más importantes y más utilizados. PDF significa formato de documento portátil . Utiliza la extensión .pdf . Se utiliza para presentar e intercambiar documentos de manera confiable, independientemente del software, hardware o sistema operativo.
Extraer texto de un archivo PDF
El paquete de Python PyPDF se puede usar para lograr lo que queremos (extracción de texto), aunque puede hacer más de lo que necesitamos. Este paquete también se puede utilizar para generar, descifrar y fusionar archivos PDF.
Nota: Para obtener más información, consulte Trabajar con archivos PDF en Python
Instalación
Para instalar este paquete, escriba el siguiente comando en la terminal.
pip install PyPDF2
Ejemplo:
PDF de entrada:
# importing required modules import PyPDF2 # creating a pdf file object pdfFileObj = open('example.pdf', 'rb') # creating a pdf reader object pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # printing number of pages in pdf file print(pdfReader.numPages) # creating a page object pageObj = pdfReader.getPage(0) # extracting text from page print(pageObj.extractText()) # closing the pdf file object pdfFileObj.close()
Producción:
Tratemos de entender el código anterior en fragmentos:
-
pdfFileObj = open('example.pdf', 'rb')
Abrimos el ejemplo.pdf en modo binario. y guardó el objeto de archivo como pdfFileObj .
-
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
Aquí, creamos un objeto de la clase PdfFileReader del módulo PyPDF2 y pasamos el objeto de archivo pdf y obtenemos un objeto de lector de pdf.
-
print(pdfReader.numPages)
La propiedad numPages da el número de páginas en el archivo pdf. Por ejemplo, en nuestro caso, es 20 (ver primera línea de salida).
-
pageObj = pdfReader.getPage(0)
Ahora, creamos un objeto de la clase PageObject del módulo PyPDF2. El objeto del lector de pdf tiene la función getPage() que toma el número de página (índice de formulario inicial 0) como argumento y devuelve el objeto de la página.
-
print(pageObj.extractText())
El objeto de página tiene la función extractText() para extraer texto de la página pdf.
-
pdfFileObj.close()
Por último, cerramos el objeto del archivo pdf.
Publicación traducida automáticamente
Artículo escrito por japneet121 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA