Βιβλιοθήκη Python ανοιχτού κώδικα για τη μετατροπή αρχείων PDF
Το δωρεάν Python API επιτρέπει στους προγραμματιστές να εξάγουν, να περιστρέφουν, να συγχωνεύουν και να συνενώνουν αρχεία PDF, να εξάγουν δεδομένα και στοιχεία από αρχεία PDF.
Η pdfrw είναι μια καθαρή βιβλιοθήκη Python ανοιχτού κώδικα που δίνει στους προγραμματιστές λογισμικού να διαβάζουν και να γράφουν αρχεία PDF χωρίς να εγκαταστήσουν κάποιο εξωτερικό ειδικό λογισμικό. Η βιβλιοθήκη προγραμματισμού pdfrw είναι πολύ απλή στη χρήση και ο πηγαίος κώδικας είναι καλά τεκμηριωμένος, πολύ απλός και κατανοητός. Η βιβλιοθήκη έχει συμπεριλάβει την κατάλληλη υποστήριξη Unicode για συμβολοσειρές κειμένου σε αρχεία PDF καθώς και τον ταχύτερο καθαρό αναλυτή PDF Python.
Η βιβλιοθήκη pdfrw περιλαμβάνει υποστήριξη για πολλές σημαντικές λειτουργίες PDF, όπως συγχώνευση PDF, τροποποίηση μεταδεδομένων, σύνδεση πολλών PDF μαζί, εξαγωγή εικόνων, εκτύπωση PDF, Περιστροφή σελίδων PDF, Δημιουργία νέου PDF, Προσθήκη εικόνας PDF υδατογραφήματος και πολλά άλλα.
.
Ξεκινώντας με το pdfrw
Το pdfrw απαιτεί Python 2.6, 2.7, 3.3, 3.4, 3.5 και 3.6. Μπορείτε να εγκαταστήσετε το pdfrw χρησιμοποιώντας το pip. Χρησιμοποιήστε την παρακάτω εντολή για να το εγκαταστήσετε.
Εγκαταστήστε το pdfrw μέσω pip
python -m pip install pdfrw
Δημιουργήστε έγγραφα PDF μέσω της Python Library
Η βιβλιοθήκη pdfrw παρέχει στους προγραμματιστές λογισμικού τη δυνατότητα να δημιουργήσουν Δημιουργία εγγράφων PDF μέσα στις δικές τους εφαρμογές Python με μερικές μόνο γραμμές κώδικα. Η βιβλιοθήκη παρέχει επίσης υποστήριξη για πρόσβαση και τροποποίηση υπαρχόντων αρχείων PDF. Μπορείτε εύκολα να εισαγάγετε νέες σελίδες, καθώς και στοιχεία γραφικών ή στοιχεία κειμένου στο υπάρχον PDF. Η βιβλιοθήκη pdfrw παρέχει υποστήριξη για την εύρεση των σελίδων σε αρχεία PDF που διαβάζετε και για τη σύνταξη ενός συνόλου σελίδων σε ένα νέο αρχείο PDF.
Δημιουργία & Αλλαγή εγγράφων PDF μέσω Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Ανάγνωση αρχείων PDF μέσω Python
Η βιβλιοθήκη pdfrw δίνει στους προγραμματιστές λογισμικού την εύκολη πρόσβαση και ανάγνωση διαφορετικών τμημάτων εγγράφων PDF μέσα σε εφαρμογές Python. Παρέχει εύκολη πρόσβαση σε ολόκληρο το έγγραφο PDF. Η βιβλιοθήκη υποστηρίζει την ανάκτηση πληροφοριών αρχείου, μεγέθους και άλλων. Δημιουργεί ένα ειδικό χαρακτηριστικό με το όνομα pages, το οποίο επιτρέπει στους χρήστες να καταχωρούν όλες τις σελίδες ενός εγγράφου PDF. Σας επιτρέπει να εξαγάγετε ένα αντικείμενο πληροφοριών εγγράφου που μπορείτε να χρησιμοποιήσετε για να βγάλετε πληροφορίες όπως συγγραφέας, τίτλος κ.λπ.
Πρόσβαση και ανάγνωση αρχείων PDF μέσω Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Προσθήκη ή τροποποίηση μεταδεδομένων
Το pdfrw επιτρέπει στους προγραμματιστές λογισμικού να προσθέτουν ή να τροποποιούν μεταδεδομένα αρχείων PDF μέσα στις δικές τους εφαρμογές Python. Μπορείτε να τροποποιήσετε ένα μεμονωμένο στοιχείο μεταδεδομένων σε ένα PDF, να γράψετε το αποτέλεσμα σε ένα νέο PDF, καθώς και να συμπεριλάβετε πολλά αρχεία και να τα συνδέσετε αφού προσθέσετε μερικά παράλογα μεταδεδομένα στο αρχείο PDF εξόδου.
Τροποποίηση μεταδεδομένων PDF μέσω Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Διαχωρισμός εγγράφων PDF
Το pdfrw επιτρέπει στους προγραμματιστές λογισμικού να χωρίζουν μέσω προγραμματισμού έγγραφα PDF Documents μέσα στις εφαρμογές τους. Ένας χρήστης μπορεί να απαιτήσει την εξαγωγή ενός συγκεκριμένου τμήματος ενός βιβλίου PDF ή τη διαίρεση του σε πολλαπλά αρχεία PDF αντί να τα αποθηκεύσει σε ένα αρχείο. Είναι πολύ εύκολο με τη βιβλιοθήκη pdfrw, απλά πρέπει να δώσετε μια διαδρομή αρχείου PDF εισόδου, τον αριθμό των σελίδων που θέλετε να εξαγάγετε και τη διαδρομή εξόδου.
Διαχωρίστε το αρχείο PDF σε πολλαπλά αρχεία PDF μέσω Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')