1. Produkter
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Trekk ut informasjon fra PDF-filer via gratis Python-bibliotek

Gratis Python API som gjør det mulig for utviklere å trekke ut informasjon fra PDF-dokumenter og konvertere PDF til andre formater og utfører automatisk layoutanalyse.

PDFMiner er et åpen kildekode som er veldig enkelt å bruke Python-biblioteket for å behandle PDF-filer uten andre avhengigheter. PDFMine.six fellesskapsvedlikeholdt gaffel av det originale PDFMiner-biblioteket. Biblioteket har gitt svært kraftige funksjoner for å trekke ut informasjon fra PDF-dokumenter. Det gir et kommandoverktøy for ikke-programmerere og et API-grensesnitt for programmerere. En kraftig PDF-konverterer er også en del av biblioteket som hjelper brukere å transformere PDF-filer til andre tekstformater som HTML.

PDFMiner er et rent Python-bibliotek som enkelt kan trekke ut alle tekstene fra en PDF-fil som gjengis programmatisk. Den store muligheten er at den også trekker ut de tilsvarende plasseringene, skriftnavnene og -størrelsene og skriveretningen (horisontalt eller vertikalt) for hvert tekstsegment. Den støtter PDF-1.7-spesifikasjonen og gir støtte for passordbeskyttet PDF-dokumentutvinning. Biblioteket har inkludert flere andre viktige funksjoner, som å analysere, analysere og konvertere PDF-dokumenter, trekke ut innhold som HTML eller hOCR, støtte for vertikale skriving av skript, støtte for RC4 og AES kryptering, uttrekk av innholdsfortegnelse, uttrekk av tagget innhold, automatisk layout analyse og så videre.

Previous Next

Komme i gang med PDFMiner

PDFMiner krever Python 3.6 og høyere. Du kan installere PDFMiner ved å bruke pip. Bruk følgende kommando for å installere den.

Installer PDFMiner via pip

 pip install pdfminer 

Du kan også laste ned det kompilerte delte biblioteket fra GitHub-depotet og installere det.

Trekk ut tekst fra PDF-fil via Python

Pdfminer.six-biblioteket med åpen kildekode gir programvareutviklere muligheten til å trekke ut tekst fra en PDF-fil med bare et par linjer med Python-kode. Biblioteket fokuserer på å hente og analysere tekstdata og trekker deretter ut teksten fra en side direkte fra kildekoden til PDF-filen. Biblioteket lar også utviklere trekke ut bilder (JPG, JBIG2, bitmaps) fra en PDF-fil. Det er også mulig å trekke ut skriftnavnet eller størrelsen på hvert enkelt tegn. Følgende eksempler viser hvordan du trekker ut teksten fra en PDF-fil og skriver den ut på skjermen.

Åpne og manipuler PDF-dokumenter via Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Konverter PDF-fil til hOCR via Python API

hOCR er en åpen standard for datarepresentasjon for formatert tekst hentet fra optisk tegngjenkjenning (OCR). De gratis bibliotekene Pdfminer.six lar programvareutviklere konvertere PDF-filer til hOCR-format med bare et par linjer med Python-kode. Biblioteket er veldig enkelt å håndtere og kan trekke ut den eksplisitte tekstinformasjonen fra de PDF-ene som har den og bruker den til å generere en grunnleggende hOCR-representasjon.

Konverter PDF-fil til tekst via Python

Biblioteket inkluderer et rikt funksjonssett og muligheter som lar deg utvide utover den grunnleggende PDF-behandlingen. Pdfminer.six-biblioteket med åpen kildekode lar oss Python-utviklere konvertere PDF-dokumenter til tekst med bare et par enkle kommandoer. Først må du oppgi banen til PDF-filer så vel som tekstfilen. Hvis dokumentet er passordbeskyttet, må du også oppgi passordet. Følgende kodeeksempel kan brukes til å oppnå målet, det vil ganske enkelt returnere strengen i en PDF, gitt filnavnet kan du enkelt lagre den i en fil.

Konverter PDF-fil til tekstformat via Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Norsk