1. Producten
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Extraheer informatie uit pdf's via de gratis Python-bibliotheek

Gratis Python API waarmee ontwikkelaars informatie uit PDF-documenten kunnen extraheren en PDF naar andere indelingen kunnen converteren en voert automatische lay-outanalyse uit.

PDFMiner is een open source, zeer eenvoudig te gebruiken Python-bibliotheek voor het verwerken van PDF-bestanden zonder enige andere afhankelijkheden. PDFMine.six door de gemeenschap onderhouden fork van de originele PDFMiner-bibliotheek. De bibliotheek biedt zeer krachtige functies voor het extraheren van informatie uit PDF-documenten. Het biedt een opdrachthulpprogramma voor niet-programmeurs en een API-interface voor programmeurs. Een krachtige PDF-converter maakt ook deel uit van de bibliotheek die gebruikers helpt om PDF-bestanden om te zetten in andere tekstformaten zoals HTML.

De PDFMiner is een pure Python-bibliotheek die eenvoudig alle teksten uit een PDF-bestand kan extraheren die programmatisch worden weergegeven. De grote mogelijkheid is dat het ook de bijbehorende locaties, lettertypenamen en -groottes en schrijfrichting (horizontaal of verticaal) voor elk tekstsegment extraheert. Het ondersteunt PDF-1.7-specificatie en biedt ondersteuning voor met een wachtwoord beveiligde PDF-documentextractie. De bibliotheek heeft verschillende andere belangrijke functies toegevoegd, zoals het parseren, analyseren en converteren van PDF-documenten, het extraheren van inhoud als HTML of hOCR, ondersteuning voor verticale schrijfscripts, ondersteuning voor RC4- en AES-codering, het extraheren van de inhoudsopgave, het extraheren van getagde inhoud, automatische lay-out analyse enzovoort.

Previous Next

Aan de slag met PDFMiner

PDFMiner vereist Python 3.6 en hoger. U kunt PDFMiner installeren met behulp van pip. Gebruik de volgende opdracht om het te installeren.

Installeer PDFMiner via pip

 pip install pdfminer 

Je kunt ook de gecompileerde gedeelde bibliotheek downloaden van de GitHub-repository en installeren.

Extraheer tekst uit PDF-bestand via Python

De open source Pdfminer.six-bibliotheek geeft softwareontwikkelaars de mogelijkheid om tekst uit een PDF-bestand te extraheren met slechts een paar regels Python-code. De bibliotheek richt zich op het verkrijgen en analyseren van tekstgegevens en haalt daarna de tekst van een pagina rechtstreeks uit de broncode van de pdf. Met de bibliotheek kunnen ontwikkelaars ook afbeeldingen (JPG, JBIG2, Bitmaps) uit een PDF-bestand extraheren. Het is ook mogelijk om de lettertypenaam of -grootte van elk afzonderlijk teken te extraheren. De volgende voorbeelden laten zien hoe u de tekst uit een PDF-bestand haalt en op het scherm afdrukt.

Open en manipuleer PDF-documenten via Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Converteer PDF-bestand naar hOCR via Python API

hOCR is een open standaard voor gegevensrepresentatie voor opgemaakte tekst die is verkregen via optische tekenherkenning (OCR). Met de gratis Pdfminer.six-bibliotheken kunnen softwareontwikkelaars PDF-bestanden converteren naar hOCR-indeling met slechts een paar regels Python-code. De bibliotheek is heel gemakkelijk te hanteren en kan de expliciete tekstinformatie extraheren uit de PDF's die deze wel hebben en deze gebruiken om een basis hOCR-representatie te genereren.

Converteer PDF-bestand naar tekst via Python

De bibliotheek bevat een uitgebreide reeks functies en mogelijkheden waarmee u verder kunt gaan dan de standaard PDF-verwerking. Met de open source Pdfminer.six-bibliotheek kunnen Python-ontwikkelaars PDF-documenten naar tekst converteren met slechts een paar eenvoudige opdrachten. Eerst moet u het pad naar PDF-bestanden opgeven, evenals het tekstbestand. Als het document met een wachtwoord is beveiligd, moet u ook het wachtwoord opgeven. Het volgende codevoorbeeld kan worden gebruikt om het doel te bereiken, het retourneert eenvoudig de tekenreeks in een PDF, gezien de bestandsnaam, kunt u deze eenvoudig opslaan in een bestand.

Converteer PDF-bestand naar tekstformaat via Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Dutch