Εξαγωγή πληροφοριών από αρχεία PDF μέσω της Δωρεάν βιβλιοθήκης Python

Δωρεάν Python API που επιτρέπει στους προγραμματιστές να εξάγουν πληροφορίες από έγγραφα PDF και να μετατρέπουν PDF σε άλλες μορφές και Εκτελεί αυτόματη ανάλυση διάταξης.

Το PDFMiner είναι μια πολύ εύκολη στη χρήση βιβλιοθήκη Python ανοιχτού κώδικα για την επεξεργασία αρχείων PDF χωρίς άλλες εξαρτήσεις. PDFMine.six διατηρημένο από την κοινότητα πιρούνι της αρχικής βιβλιοθήκης PDFMiner. Η βιβλιοθήκη έχει παράσχει πολύ ισχυρά χαρακτηριστικά για την εξαγωγή πληροφοριών από έγγραφα PDF. Παρέχει ένα βοηθητικό πρόγραμμα εντολών για μη προγραμματιστές και μια διεπαφή API για προγραμματιστές. Ένας ισχυρός μετατροπέας PDF είναι επίσης μέρος της βιβλιοθήκης που βοηθά τους χρήστες να μετατρέψουν αρχεία PDF σε άλλες μορφές κειμένου, όπως HTML.

Το PDFMiner είναι μια καθαρή βιβλιοθήκη Python που μπορεί εύκολα να εξαγάγει όλα τα κείμενα από ένα αρχείο PDF που αποδίδονται μέσω προγραμματισμού. Η μεγάλη ικανότητα είναι ότι εξάγει επίσης τις αντίστοιχες τοποθεσίες, τα ονόματα και τα μεγέθη γραμματοσειρών και την κατεύθυνση γραφής (οριζόντια ή κάθετη) για κάθε τμήμα κειμένου. Υποστηρίζει τις προδιαγραφές PDF-1.7 και παρέχει υποστήριξη για εξαγωγή εγγράφων PDF που προστατεύεται με κωδικό πρόσβασης. Η βιβλιοθήκη έχει συμπεριλάβει πολλά άλλα σημαντικά χαρακτηριστικά, όπως ανάλυση, ανάλυση και μετατροπή εγγράφων PDF, εξαγωγή περιεχομένου ως HTML ή hOCR, υποστήριξη σεναρίων κάθετης γραφής, υποστήριξη κρυπτογράφησης RC4 και AES, εξαγωγή πίνακα περιεχομένων, εξαγωγή περιεχομένων με ετικέτα, αυτόματη διάταξη ανάλυση και ούτω καθεξής.

Με μια ματιά

Μια επισκόπηση των δυνατοτήτων του PDFMiner.

Επισκόπηση χαρακτηριστικών

Ανάλυση PDF
Αναλύστε το PDF
Μετατροπή αρχείων PDF
Επισκευή PDF
Εξαγωγή κειμένου
PDF σε HTML
PDF σε XML
Περιστρεφόμενα αρχεία PDF
Γλώσσες CJK
Βασική κρυπτογράφηση
Εξαγωγή TOC
Διάφοροι τύποι γραμματοσειρών

PDFMiner

Το PDFMiner υποστηρίζει μορφή αρχείου PDF, καθώς και τυποποιημένες μορφές για εξαγωγή.

Αναγνώστης

Συγγραφέας

PDF, TXT, HTML, MML

PDFMiner

Πλατφόρμα Ανεξαρτησίας

Το PDFMiner έχει δοκιμαστεί με Python 3.6 και νεότερη έκδοση.

Python 3.6 και νεότερη έκδοση

PDFMiner

Ξεκινώντας με το PDFMiner

Το PDFMiner απαιτεί Python 3.6 και νεότερη έκδοση. Μπορείτε να εγκαταστήσετε το PDFMiner χρησιμοποιώντας το pip. Χρησιμοποιήστε την παρακάτω εντολή για να το εγκαταστήσετε.

Εγκαταστήστε το PDFMiner μέσω pip

 pip install pdfminer

Μπορείτε επίσης να κατεβάσετε τη μεταγλωττισμένη κοινόχρηστη βιβλιοθήκη από το αποθετήριο GitHub και να την εγκαταστήσετε.

Εξαγωγή κειμένου από αρχείο PDF μέσω Python

Η βιβλιοθήκη ανοιχτού κώδικα Pdfminer.six δίνει στους προγραμματιστές λογισμικού τη δυνατότητα να εξάγουν κείμενο από ένα αρχείο PDF με μερικές μόνο γραμμές κώδικα Python. Η βιβλιοθήκη εστιάζει στη λήψη και ανάλυση δεδομένων κειμένου και στη συνέχεια εξάγει το κείμενο από μια σελίδα απευθείας από τον πηγαίο κώδικα του PDF. Η βιβλιοθήκη επιτρέπει επίσης στους προγραμματιστές να εξάγουν εικόνες (JPG, JBIG2, Bitmaps) από ένα αρχείο PDF. Είναι επίσης δυνατή η εξαγωγή του ονόματος γραμματοσειράς ή του μεγέθους κάθε μεμονωμένου χαρακτήρα. Τα ακόλουθα παραδείγματα δείχνουν πώς να εξαγάγετε το κείμενο από ένα αρχείο PDF και να το εκτυπώσετε στην οθόνη.

Άνοιγμα και χειρισμός εγγράφων PDF μέσω Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Μετατροπή αρχείου PDF σε hOCR μέσω Python API

Το hOCR είναι ένα ανοιχτό πρότυπο αναπαράστασης δεδομένων για μορφοποιημένο κείμενο που λαμβάνεται από οπτική αναγνώριση χαρακτήρων (OCR). Οι δωρεάν βιβλιοθήκες Pdfminer.six επιτρέπουν στους προγραμματιστές λογισμικού να μετατρέπουν αρχεία PDF σε μορφή hOCR με μερικές μόνο γραμμές κώδικα Python. Η βιβλιοθήκη είναι πολύ εύκολη στον χειρισμό και μπορεί να εξαγάγει τις σαφείς πληροφορίες κειμένου από εκείνα τα PDF που το έχουν και να τις χρησιμοποιεί για να δημιουργήσει μια βασική αναπαράσταση hOCR.

Μετατροπή αρχείου PDF σε κείμενο μέσω Python

Η βιβλιοθήκη περιλαμβάνει ένα πλούσιο σύνολο χαρακτηριστικών και δυνατότητες που σας επιτρέπουν να επεκταθείτε πέρα από τη βασική επεξεργασία PDF. Η βιβλιοθήκη ανοιχτού κώδικα Pdfminer.six επιτρέπει στους προγραμματιστές της Python να μετατρέψουν έγγραφα PDF σε κείμενο με μερικές απλές εντολές. Πρώτα πρέπει να δώσετε τη διαδρομή προς τα αρχεία PDF καθώς και το αρχείο κειμένου. Εάν το έγγραφο προστατεύεται με κωδικό πρόσβασης, πρέπει επίσης να δώσετε τον κωδικό πρόσβασής του. Το ακόλουθο παράδειγμα κώδικα μπορεί να χρησιμοποιηθεί για την επίτευξη του στόχου, απλά θα επιστρέψει τη συμβολοσειρά σε ένα PDF, δεδομένου του ονόματος αρχείου της, μπορείτε εύκολα να την αποθηκεύσετε στο αρχείο a.

Μετατροπή αρχείου PDF σε μορφή κειμένου μέσω Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text