Open-Source-Python-Bibliothek zum Konvertieren von PDF-Dateien
Mit der kostenlosen Python-API können Entwickler PDF-Dateien exportieren, drehen, zusammenführen und verketten sowie Daten und Elemente aus PDFs extrahieren.
pdfrw ist eine reine Open-Source-Python-Bibliothek, mit der Softwareentwickler PDF-Dateien lesen und schreiben können, ohne externe Spezialsoftware installieren zu müssen. Die pdfrw-Programmierbibliothek ist sehr einfach zu verwenden und der Quellcode ist gut dokumentiert, sehr einfach und leicht verständlich. Die Bibliothek enthält die richtige Unicode-Unterstützung für Textzeichenfolgen in PDFs sowie den schnellsten reinen Python-PDF-Parser.
Die pdfrw-Bibliothek enthält Unterstützung für mehrere wichtige PDF-Operationen wie das Zusammenführen von PDFs, das Ändern von Metadaten, das Verketten mehrerer PDFs miteinander, das Extrahieren von Bildern, das Drucken von PDFs, das Drehen von PDF-Seiten, das Erstellen eines neuen PDFs, das Hinzufügen eines Wasserzeichen-PDF-Bildes und vieles mehr.
.
Erste Schritte mit pdfrw
pdfrw erfordert Python 2.6, 2.7, 3.3, 3.4, 3.5 und 3.6. Sie können pdfrw mit pip installieren. Bitte verwenden Sie den folgenden Befehl, um es zu installieren.
Installieren Sie pdfrw über Pip
python -m pip install pdfrw
Erstellen Sie PDF-Dokumente über die Python-Bibliothek
Die pdfrw-Bibliothek bietet Softwareentwicklern die Möglichkeit, mit nur wenigen Codezeilen PDF-Dokumente erstellen in ihren eigenen Python-Anwendungen zu erstellen. Die Bibliothek bietet auch Unterstützung für den Zugriff auf und die Änderung vorhandener PDF-Dateien. Neue Seiten sowie Grafikbausteine oder Textelemente können Sie ganz einfach in das bestehende PDF einfügen. Die pdfrw-Bibliothek bietet Unterstützung, um die Seiten in PDF-Dateien zu finden, die Sie eingelesen haben, und um eine Reihe von Seiten wieder in eine neue PDF-Datei zu schreiben.
Erstellen und ändern Sie PDF-Dokumente über Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Lesen von PDF-Dateien über Python
Die pdfrw-Bibliothek ermöglicht Softwareentwicklern den einfachen Zugriff und das Lesen verschiedener Teile von PDF-Dokumenten in Python-Anwendungen. Es bietet einfachen Zugriff auf das gesamte PDF-Dokument. Die Bibliothek unterstützt das Abrufen von Dateiinformationen, Größe und mehr. Es erstellt ein spezielles Attribut namens Seiten, mit dem Benutzer alle Seiten eines PDF-Dokuments auflisten können. Damit können Sie ein Dokumentinformationsobjekt extrahieren, mit dem Sie Informationen wie Autor, Titel usw. abrufen können.
Zugriff auf und Lesen von PDF-Dateien über Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Metadaten hinzufügen oder ändern
pdfrw ermöglicht es Softwareentwicklern, Metadaten von PDF-Dateien in ihren eigenen Python-Anwendungen hinzuzufügen oder zu ändern. Sie können ein einzelnes Metadatenelement in einer PDF-Datei ändern, das Ergebnis in eine neue PDF-Datei schreiben sowie mehrere Dateien einbeziehen und sie verketten, nachdem Sie einige unsinnige Metadaten zur PDF-Ausgabedatei hinzugefügt haben.
Ändern Sie PDF-Metadaten über Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Aufteilen von PDF-Dokumenten
pdfrw ermöglicht es Softwareentwicklern, PDF-Dokumente innerhalb ihrer Anwendungen programmgesteuert aufzuteilen. Ein Benutzer möchte möglicherweise einen bestimmten Teil eines PDF-Buchs extrahieren oder es in mehrere PDFs aufteilen, anstatt sie in einer Datei zu speichern. Mit der pdfrw-Bibliothek ist es sehr einfach, Sie müssen nur einen Eingabe-PDF-Dateipfad, die Anzahl der Seiten, die Sie extrahieren möchten, und den Ausgabepfad angeben.
Teilen Sie die PDF-Datei über Python in mehrere PDFs auf
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')