Cree una aplicación para extraer URL y metadatos de un PDF usando Python

El PDF (formato de documento portátil) es el formato de archivo independiente de la plataforma de uso más común desarrollado por Adobe para presentar documentos. Hay muchos paquetes relacionados con PDF para Python, uno de ellos es el módulo pdfx . El módulo pdfx se utiliza para extraer URL, metadatos y texto sin formato de un PDF o URL de PDF determinado.

Características:

  • Extraiga referencias y metadatos de un PDF determinado.
  • Detecta referencias de pdf, URL, arxiv y DOI.
  • La descarga rápida y paralela de todos los PDF referenciados.
  • Verifique si hay enlaces rotos (usando el indicador -c).
  • Salida como texto o JSON (usando el indicador -j).
  • Extraiga el texto del PDF (usando el indicador –text).
  • Utilice una herramienta de línea de comandos o un paquete de Python.
  • Compatible con Python 2 y 3.
  • Funciona con archivos PDF locales y en línea.

Empezando:

Primero, necesitamos instalar el módulo pdfx , ejecutar el siguiente código en la terminal.

pip install pdfx

Acercarse:

  • Importar módulo pdfx .
  • Lea el archivo PDF con el método pdfx.PDFx() .
  • Obtenga metadatos con el método get_metadata() .
  • Obtener URL con el método get_references_as_dict() .

Implementación:

Paso 1: Importación de módulos y lectura de archivos PDF.

Python3

# import module
import pdfx
 
# reading pdf file
pdf = pdfx.PDFx("geeksforgeeks.pdf")
 
# display
print(pdf)

Producción:

<pdfx.PDFx at 0x1c189244a88>

Significa objeto pdfx.PDFx creado en 0x1c189244a88 esta ubicación en sus recuerdos.

Paso 2: Obtener metadatos de PDF.

Python3

pdf.get_metadata()

Producción:

{‘Creador’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/85.0.4183.83 Safari/537.36’, ‘Productor’: ‘Skia/PDF m85’, 
‘ 
CreationDate ‘: “D:20200911041438+00’00′”, 
‘ModDate’: “D:20200911041438+00’00′”, 
‘Páginas’: 2}

Paso 3: obtener el formulario de URL en PDF.

Python3

pdf.get_references_as_dict()

Producción: 

{'url': ['https://www.geeksforgeeks.org/cookie-policy/',
  'https://www.geeksforgeeks.org/privacy-policy/',
  'https://www.geeksforgeeks.org/',
  'https://www.geeksforgeeks.org/optparse-module-in-python/']}

Aplicación para extraer URL y metadatos de un PDF con tkinter : el siguiente script implementa el enfoque anterior en una interfaz gráfica de usuario.

Python3

# import modules
from tkinter import *
import pdfx
 
 
# user defined funtion
def get_info():
 
    pdf = pdfx.PDFx(str(e1.get()))
    meta.set(pdf.get_metadata())
    url.set(pdf.get_references_as_dict())
 
 
# object of tkinter
# and background set for light grey
master = Tk()
master.configure(bg='light grey')
 
 
# Variable Classes in tkinter
meta = StringVar()
url = StringVar()
 
 
# Creating label for each information
# name using widget Label
Label(master, text="PDF or PDF-URL : ", bg="light grey").grid(row=0, sticky=W)
Label(master, text="Meta information :", bg="light grey").grid(row=3, sticky=W)
Label(master, text="URL information :", bg="light grey").grid(row=4, sticky=W)
 
 
# Creating label for class variable
# name using widget Entry
Label(master, text="", textvariable=meta,
      bg="light grey").grid(row=3, column=1, sticky=W)
Label(master, text="", textvariable=url, bg="light grey").grid(
    row=4, column=1, sticky=W)
 
 
e1 = Entry(master, width=100)
e1.grid(row=0, column=1)
 
 
# creating a button using the widget
# Button that will call the submit function
b = Button(master, text="Show", command=get_info, bg="Blue")
b.grid(row=0, column=2, columnspan=2, rowspan=2, padx=5, pady=5,)
 
 
mainloop()
 
# this code belongs to Satyam kumar (ksatyam858)

Producción:

Publicación traducida automáticamente

Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *