1. Məhsullar
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Pulsuz Python Kitabxanası vasitəsilə PDF-lərdən məlumat çıxarın

Tərtibatçılara PDF sənədlərindən məlumat çıxarmağa və PDF-i digər formatlara çevirməyə imkan verən və avtomatik tərtibat təhlilini həyata keçirən pulsuz Python API.

PDFMiner, heç bir asılılıq olmadan PDF fayllarını emal etmək üçün Python kitabxanasından istifadə etmək üçün çox asan açıq mənbədir. Orijinal PDFMiner kitabxanasının PDFMine.six icma tərəfindən idarə olunan çəngəl. Kitabxana PDF sənədlərindən məlumat çıxarmaq üçün çox güclü funksiyalar təqdim etmişdir. Qeyri-Proqramçılar üçün komanda yardım proqramı və proqramçılar üçün API interfeysi təmin edir. Güclü PDF çevirici də istifadəçilərə PDF fayllarını HTML kimi digər mətn formatlarına çevirməyə kömək edən kitabxananın bir hissəsidir.

PDFMiner proqramlı şəkildə göstərilən PDF faylından bütün mətnləri asanlıqla çıxara bilən təmiz Python kitabxanasıdır. Böyük qabiliyyət ondan ibarətdir ki, o, hər bir mətn seqmenti üçün müvafiq yerləri, şrift adlarını və ölçülərini və yazı istiqamətini (üfüqi və ya şaquli) çıxarır. O, PDF-1.7 spesifikasiyasını dəstəkləyir və parolla qorunan PDF sənədinin çıxarılmasına dəstək verir. Kitabxanaya PDF sənədlərinin təhlili, təhlili və konvertasiyası, məzmunun HTML və ya hOCR kimi çıxarılması, şaquli yazı skriptləri üçün dəstək, RC4 və AES şifrələmə dəstəyi, məzmun cədvəlinin çıxarılması, etiketlənmiş məzmunun çıxarılması, avtomatik tərtibat kimi bir sıra digər vacib funksiyalar daxildir. təhlili və s.

Previous Next

PDFMiner ilə işə başlamaq

PDFMiner üçün Python 3.6 və daha yüksək versiya tələb olunur. Siz pip istifadə edərək PDFMiner quraşdıra bilərsiniz. Quraşdırmaq üçün aşağıdakı əmrdən istifadə edin.

PDFMiner-i pip vasitəsilə quraşdırın

 pip install pdfminer 

Siz həmçinin GitHub repozitoriyasından yığılmış paylaşılan kitabxananı endirə və quraşdıra bilərsiniz.

Python vasitəsilə PDF faylından mətn çıxarın

Açıq mənbəli Pdfminer.six kitabxanası proqram tərtibatçılarına bir neçə sətir Python kodu ilə PDF faylından mətn çıxarmaq imkanı verir. Kitabxana mətn məlumatlarını əldə etməyə və təhlil etməyə diqqət yetirir və bundan sonra mətni birbaşa PDF-nin mənbə kodundan bir səhifədən çıxarır. Kitabxana həmçinin tərtibatçılara PDF faylından şəkilləri (JPG, JBIG2, Bitmaplar) çıxarmağa imkan verir. Hər bir fərdi simvolun Şrift adını və ya ölçüsünü çıxarmaq da mümkündür. Aşağıdakı nümunələr mətni PDF faylından necə çıxarmaq və ekranda çap etmək yollarını göstərir.

Python vasitəsilə PDF sənədlərini açın və idarə edin

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Python API vasitəsilə PDF faylını hOCR-ə çevirin

hOCR optik xarakter tanınması (OCR) ilə əldə edilən formatlaşdırılmış mətn üçün məlumatların təqdim edilməsinin açıq standartıdır. Pulsuz Pdfminer.six kitabxanaları proqram tərtibatçılarına PDF fayllarını yalnız bir neçə sətir Python kodu ilə hOCR formatına çevirməyə imkan verir. Kitabxananı idarə etmək çox asandır və açıq mətn məlumatını orada olan PDF-lərdən çıxara bilər və ondan əsas hOCR təqdimatı yaratmaq üçün istifadə edir.

Python vasitəsilə PDF faylını mətnə çevirin

Kitabxana zəngin xüsusiyyətlər dəsti və əsas PDF emalından kənara çıxmağa imkan verən imkanları ehtiva edir. Açıq mənbəli Pdfminer.six kitabxanası Python tərtibatçılarına bir neçə sadə əmrlə PDF sənədlərini mətnə çevirməyə imkan verir. Əvvəlcə PDF fayllarına, eləcə də Mətn faylına gedən yolu təmin etməlisiniz. Sənəd parolla qorunursa, onun parolunu da təqdim etməlisiniz. Aşağıdakı kod nümunəsi məqsədə çatmaq üçün istifadə edilə bilər, o, sadəcə olaraq sətri PDF-də qaytaracaq, onun fayl adını nəzərə alaraq, onu asanlıqla faylda saxlaya bilərsiniz.

Python API vasitəsilə PDF faylını mətn formatına çevirin

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Azəri