Extrahieren Sie Informationen aus PDFs über die kostenlose Python-Bibliothek
Kostenlose Python-API, mit der Entwickler Informationen aus PDF-Dokumenten extrahieren und PDF in andere Formate konvertieren und eine automatische Layoutanalyse durchführen können.
PDFMiner ist eine sehr einfach zu verwendende Open-Source-Python-Bibliothek zur Verarbeitung von PDF-Dateien ohne weitere Abhängigkeiten. PDFMine.six von der Community gepflegter Fork der ursprünglichen PDFMiner-Bibliothek. Die Bibliothek hat sehr leistungsfähige Funktionen zum Extrahieren von Informationen aus PDF-Dokumenten bereitgestellt. Es bietet ein Befehlsdienstprogramm für Nicht-Programmierer und eine API-Schnittstelle für Programmierer. Ein leistungsstarker PDF-Konverter ist ebenfalls Teil der Bibliothek, der Benutzern hilft, PDF-Dateien in andere Textformate wie HTML umzuwandeln.
Der PDFMiner ist eine reine Python-Bibliothek, die problemlos alle Texte aus einer PDF-Datei extrahieren kann, die programmgesteuert gerendert werden. Die große Fähigkeit besteht darin, dass es auch die entsprechenden Positionen, Schriftartnamen und -größen sowie die Schreibrichtung (horizontal oder vertikal) für jedes Textsegment extrahiert. Es unterstützt die PDF-1.7-Spezifikation und bietet Unterstützung für die passwortgeschützte PDF-Dokumentextraktion. Die Bibliothek enthält mehrere andere wichtige Funktionen, wie das Analysieren, Analysieren und Konvertieren von PDF-Dokumenten, das Extrahieren von Inhalten als HTML oder hOCR, die Unterstützung für vertikale Schreibskripte, die RC4- und AES-Verschlüsselungsunterstützung, das Extrahieren von Inhaltsverzeichnissen, das Extrahieren von markierten Inhalten und das automatische Layout Analyse und so weiter.
Erste Schritte mit PDFMiner
PDFMiner erfordert Python 3.6 und höher. Sie können PDFMiner mit pip installieren. Bitte verwenden Sie den folgenden Befehl, um es zu installieren.
Installieren Sie PDFMiner über Pip
pip install pdfminer
Sie können auch die kompilierte gemeinsame Bibliothek aus dem GitHub-Repository herunterladen und installieren.
Text aus PDF-Datei über Python extrahieren
Die Open-Source-Bibliothek Pdfminer.six gibt Softwareentwicklern die Möglichkeit, mit nur wenigen Zeilen Python-Code Text aus einer PDF-Datei zu extrahieren. Die Bibliothek konzentriert sich auf das Abrufen und Analysieren von Textdaten und extrahiert anschließend den Text einer Seite direkt aus dem Quellcode des PDF. Die Bibliothek ermöglicht es Entwicklern auch, Bilder (JPG, JBIG2, Bitmaps) aus einer PDF-Datei zu extrahieren. Es ist auch möglich, den Fontnamen oder die Größe jedes einzelnen Zeichens zu extrahieren. Die folgenden Beispiele zeigen, wie Sie den Text aus einer PDF-Datei extrahieren und auf dem Bildschirm ausdrucken.
Öffnen und bearbeiten Sie PDF-Dokumente über Python
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Konvertieren Sie PDF-Dateien über die Python-API in hOCR
hOCR ist ein offener Standard zur Datendarstellung für formatierten Text, der durch optische Zeichenerkennung (OCR) erhalten wird. Mit den kostenlosen Pdfminer.six-Bibliotheken können Softwareentwickler PDF-Dateien mit nur wenigen Zeilen Python-Code in das hOCR-Format konvertieren. Die Bibliothek ist sehr einfach zu handhaben und kann die expliziten Textinformationen aus den PDFs extrahieren, die sie enthalten, und verwendet sie, um eine grundlegende hOCR-Darstellung zu generieren.
Konvertieren Sie PDF-Dateien über Python in Text
Die Bibliothek umfasst eine Vielzahl von Funktionen und Funktionen, mit denen Sie über die grundlegende PDF-Verarbeitung hinausgehen können. Mit der Open-Source-Bibliothek Pdfminer.six können Python-Entwickler PDF-Dokumente mit nur ein paar einfachen Befehlen in Text konvertieren. Zuerst müssen Sie den Pfad zu PDF-Dateien sowie zur Textdatei angeben. Wenn das Dokument passwortgeschützt ist, müssen Sie auch sein Passwort angeben. Das folgende Codebeispiel kann verwendet werden, um das Ziel zu erreichen, es gibt einfach die Zeichenfolge in einer PDF-Datei zurück, angesichts ihres Dateinamens können Sie sie einfach in einer Datei speichern.
Konvertieren Sie PDF-Dateien über die Python-API in das Textformat
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text