El PDF (formato de documento portátil) es el formato de archivo independiente de la plataforma de uso más común desarrollado por Adobe para presentar documentos. Hay muchos paquetes relacionados con PDF para Python, uno de ellos es el módulo pdfx . El módulo pdfx se utiliza para extraer URL, metadatos y texto sin formato de un PDF o URL de PDF determinado.
Características:
- Extraiga referencias y metadatos de un PDF determinado.
- Detecta referencias de pdf, URL, arxiv y DOI.
- La descarga rápida y paralela de todos los PDF referenciados.
- Verifique si hay enlaces rotos (usando el indicador -c).
- Salida como texto o JSON (usando el indicador -j).
- Extraiga el texto del PDF (usando el indicador –text).
- Utilice una herramienta de línea de comandos o un paquete de Python.
- Compatible con Python 2 y 3.
- Funciona con archivos PDF locales y en línea.
Empezando:
Primero, necesitamos instalar el módulo pdfx , ejecutar el siguiente código en la terminal.
pip install pdfx
Acercarse:
- Importar módulo pdfx .
- Lea el archivo PDF con el método pdfx.PDFx() .
- Obtenga metadatos con el método get_metadata() .
- Obtener URL con el método get_references_as_dict() .
Implementación:
Paso 1: Importación de módulos y lectura de archivos PDF.
Python3
# import module import pdfx # reading pdf file pdf = pdfx.PDFx("geeksforgeeks.pdf") # display print(pdf)
Producción:
<pdfx.PDFx at 0x1c189244a88>
Significa objeto pdfx.PDFx creado en 0x1c189244a88 esta ubicación en sus recuerdos.
Paso 2: Obtener metadatos de PDF.
Python3
pdf.get_metadata()
Producción:
{‘Creador’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/85.0.4183.83 Safari/537.36’, ‘Productor’: ‘Skia/PDF m85’,
‘
CreationDate ‘: “D:20200911041438+00’00′”,
‘ModDate’: “D:20200911041438+00’00′”,
‘Páginas’: 2}
Paso 3: obtener el formulario de URL en PDF.
Python3
pdf.get_references_as_dict()
Producción:
{'url': ['https://www.geeksforgeeks.org/cookie-policy/', 'https://www.geeksforgeeks.org/privacy-policy/', 'https://www.geeksforgeeks.org/', 'https://www.geeksforgeeks.org/optparse-module-in-python/']}
Aplicación para extraer URL y metadatos de un PDF con tkinter : el siguiente script implementa el enfoque anterior en una interfaz gráfica de usuario.
Python3
# import modules from tkinter import * import pdfx # user defined funtion def get_info(): pdf = pdfx.PDFx(str(e1.get())) meta.set(pdf.get_metadata()) url.set(pdf.get_references_as_dict()) # object of tkinter # and background set for light grey master = Tk() master.configure(bg='light grey') # Variable Classes in tkinter meta = StringVar() url = StringVar() # Creating label for each information # name using widget Label Label(master, text="PDF or PDF-URL : ", bg="light grey").grid(row=0, sticky=W) Label(master, text="Meta information :", bg="light grey").grid(row=3, sticky=W) Label(master, text="URL information :", bg="light grey").grid(row=4, sticky=W) # Creating label for class variable # name using widget Entry Label(master, text="", textvariable=meta, bg="light grey").grid(row=3, column=1, sticky=W) Label(master, text="", textvariable=url, bg="light grey").grid( row=4, column=1, sticky=W) e1 = Entry(master, width=100) e1.grid(row=0, column=1) # creating a button using the widget # Button that will call the submit function b = Button(master, text="Show", command=get_info, bg="Blue") b.grid(row=0, column=2, columnspan=2, rowspan=2, padx=5, pady=5,) mainloop() # this code belongs to Satyam kumar (ksatyam858)
Producción:
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA