1. Produkte
  2.   Pdf
  3.   Python
  4.   Pdfrw
 
  

Open-Source-Python-Bibliothek zum Konvertieren von PDF-Dateien

Mit der kostenlosen Python-API können Entwickler PDF-Dateien exportieren, drehen, zusammenführen und verketten sowie Daten und Elemente aus PDFs extrahieren.

pdfrw ist eine reine Open-Source-Python-Bibliothek, mit der Softwareentwickler PDF-Dateien lesen und schreiben können, ohne externe Spezialsoftware installieren zu müssen. Die pdfrw-Programmierbibliothek ist sehr einfach zu verwenden und der Quellcode ist gut dokumentiert, sehr einfach und leicht verständlich. Die Bibliothek enthält die richtige Unicode-Unterstützung für Textzeichenfolgen in PDFs sowie den schnellsten reinen Python-PDF-Parser.

Die pdfrw-Bibliothek enthält Unterstützung für mehrere wichtige PDF-Operationen wie das Zusammenführen von PDFs, das Ändern von Metadaten, das Verketten mehrerer PDFs miteinander, das Extrahieren von Bildern, das Drucken von PDFs, das Drehen von PDF-Seiten, das Erstellen eines neuen PDFs, das Hinzufügen eines Wasserzeichen-PDF-Bildes und vieles mehr.

.

Previous Next

Erste Schritte mit pdfrw

pdfrw erfordert Python 2.6, 2.7, 3.3, 3.4, 3.5 und 3.6. Sie können pdfrw mit pip installieren. Bitte verwenden Sie den folgenden Befehl, um es zu installieren.

Installieren Sie pdfrw über Pip

 python -m pip install pdfrw  

Erstellen Sie PDF-Dokumente über die Python-Bibliothek

Die pdfrw-Bibliothek bietet Softwareentwicklern die Möglichkeit, mit nur wenigen Codezeilen PDF-Dokumente erstellen in ihren eigenen Python-Anwendungen zu erstellen. Die Bibliothek bietet auch Unterstützung für den Zugriff auf und die Änderung vorhandener PDF-Dateien. Neue Seiten sowie Grafikbausteine oder Textelemente können Sie ganz einfach in das bestehende PDF einfügen. Die pdfrw-Bibliothek bietet Unterstützung, um die Seiten in PDF-Dateien zu finden, die Sie eingelesen haben, und um eine Reihe von Seiten wieder in eine neue PDF-Datei zu schreiben.

Erstellen und ändern Sie PDF-Dokumente über Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Lesen von PDF-Dateien über Python

Die pdfrw-Bibliothek ermöglicht Softwareentwicklern den einfachen Zugriff und das Lesen verschiedener Teile von PDF-Dokumenten in Python-Anwendungen. Es bietet einfachen Zugriff auf das gesamte PDF-Dokument. Die Bibliothek unterstützt das Abrufen von Dateiinformationen, Größe und mehr. Es erstellt ein spezielles Attribut namens Seiten, mit dem Benutzer alle Seiten eines PDF-Dokuments auflisten können. Damit können Sie ein Dokumentinformationsobjekt extrahieren, mit dem Sie Informationen wie Autor, Titel usw. abrufen können.

Zugriff auf und Lesen von PDF-Dateien über Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Metadaten hinzufügen oder ändern

pdfrw ermöglicht es Softwareentwicklern, Metadaten von PDF-Dateien in ihren eigenen Python-Anwendungen hinzuzufügen oder zu ändern. Sie können ein einzelnes Metadatenelement in einer PDF-Datei ändern, das Ergebnis in eine neue PDF-Datei schreiben sowie mehrere Dateien einbeziehen und sie verketten, nachdem Sie einige unsinnige Metadaten zur PDF-Ausgabedatei hinzugefügt haben.

Ändern Sie PDF-Metadaten über Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Aufteilen von PDF-Dokumenten

pdfrw ermöglicht es Softwareentwicklern, PDF-Dokumente innerhalb ihrer Anwendungen programmgesteuert aufzuteilen. Ein Benutzer möchte möglicherweise einen bestimmten Teil eines PDF-Buchs extrahieren oder es in mehrere PDFs aufteilen, anstatt sie in einer Datei zu speichern. Mit der pdfrw-Bibliothek ist es sehr einfach, Sie müssen nur einen Eingabe-PDF-Dateipfad, die Anzahl der Seiten, die Sie extrahieren möchten, und den Ausgabepfad angeben.

Teilen Sie die PDF-Datei über Python in mehrere PDFs auf

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Deutsch