แยกข้อมูลจาก PDF ผ่านไลบรารี Python ฟรี

Python API ฟรีที่ช่วยให้นักพัฒนาดึงข้อมูลจากเอกสาร PDF และแปลง PDF เป็นรูปแบบอื่นและทำการวิเคราะห์เลย์เอาต์อัตโนมัติ

PDFMiner เป็นโอเพ่นซอร์สที่ใช้ไลบรารี Python ที่ใช้งานง่ายมากสำหรับการประมวลผลไฟล์ PDF โดยไม่ต้องพึ่งพาสิ่งอื่นใด ทางแยกที่ดูแลโดยชุมชน PDFMine.six ของไลบรารี PDFMiner ดั้งเดิม ห้องสมุดมีคุณลักษณะที่มีประสิทธิภาพมากสำหรับการดึงข้อมูลจากเอกสาร PDF มียูทิลิตีคำสั่งสำหรับผู้ที่ไม่ใช่โปรแกรมเมอร์และอินเทอร์เฟซ API สำหรับโปรแกรมเมอร์ ตัวแปลง PDF ที่มีประสิทธิภาพยังเป็นส่วนหนึ่งของไลบรารีที่ช่วยให้ผู้ใช้แปลงไฟล์ PDF เป็นรูปแบบข้อความอื่นๆ เช่น HTML

PDFMiner เป็นไลบรารี Python แท้ที่สามารถแยกข้อความทั้งหมดจากไฟล์ PDF ที่เรนเดอร์ทางโปรแกรมได้อย่างง่ายดาย ความสามารถที่ยอดเยี่ยมคือมันยังแยกตำแหน่งที่ตั้ง ชื่อและขนาดฟอนต์ และทิศทางการเขียน (แนวนอนหรือแนวตั้ง) ที่สอดคล้องกันสำหรับแต่ละส่วนของข้อความ รองรับข้อกำหนด PDF-1.7 และรองรับการสกัดเอกสาร PDF ที่ป้องกันด้วยรหัสผ่าน ไลบรารีได้รวมคุณสมบัติที่สำคัญอื่นๆ ไว้หลายอย่าง เช่น การแยกวิเคราะห์ การวิเคราะห์ และการแปลงเอกสาร PDF การแตกเนื้อหาเป็น HTML หรือ hOCR การรองรับสคริปต์การเขียนแนวตั้ง การรองรับการเข้ารหัส RC4 และ AES การแตกสารบัญ การสกัดเนื้อหาที่ถูกแท็ก การจัดวางอัตโนมัติ การวิเคราะห์และอื่น ๆ

Previous Next

เริ่มต้นใช้งาน PDFMiner

PDFMiner ต้องการ Python 3.6 และสูงกว่า คุณสามารถติดตั้ง PDFMiner โดยใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อติดตั้ง

ติดตั้ง PDFMiner ผ่าน pip

 pip install pdfminer 

คุณยังสามารถดาวน์โหลดไลบรารีที่ใช้ร่วมกันที่คอมไพล์แล้วจากที่เก็บ GitHub และติดตั้ง

แยกข้อความจากไฟล์ PDF ผ่าน Python

ไลบรารี Pdfminer.six แบบโอเพ่นซอร์สช่วยให้นักพัฒนาซอฟต์แวร์สามารถแยกข้อความจากไฟล์ PDF ด้วยโค้ด Python เพียงไม่กี่บรรทัด ห้องสมุดมุ่งเน้นไปที่การรับและวิเคราะห์ข้อมูลข้อความ และหลังจากนั้นจะแยกข้อความจากหน้าโดยตรงจากซอร์สโค้ดของ PDF ไลบรารียังอนุญาตให้นักพัฒนาดึงรูปภาพ (JPG, JBIG2, Bitmaps) จากไฟล์ PDF นอกจากนี้ยังสามารถแยกชื่อแบบอักษรหรือขนาดของอักขระแต่ละตัวได้อีกด้วย ตัวอย่างต่อไปนี้แสดงวิธีแยกข้อความจากไฟล์ PDF และพิมพ์บนหน้าจอ

เปิดและจัดการเอกสาร PDF ผ่าน Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

แปลงไฟล์ PDF เป็น hOCR ผ่าน Python API

hOCR เป็นมาตรฐานเปิดของการแสดงข้อมูลสำหรับข้อความที่จัดรูปแบบซึ่งได้มาจากการรู้จำอักขระด้วยแสง (OCR) ไลบรารี Pdfminer.six ฟรีช่วยให้นักพัฒนาซอฟต์แวร์สามารถแปลงไฟล์ PDF เป็นรูปแบบ hOCR โดยใช้โค้ด Python เพียงไม่กี่บรรทัด ไลบรารีนี้จัดการได้ง่ายมากและสามารถดึงข้อมูลข้อความที่ชัดเจนจากไฟล์ PDF ที่มีและใช้เพื่อสร้างการแสดง hOCR พื้นฐาน

แปลงไฟล์ PDF เป็นข้อความผ่าน Python

ไลบรารีประกอบด้วยชุดคุณสมบัติและความสามารถมากมายที่ช่วยให้คุณขยายขอบเขตนอกเหนือจากการประมวลผล PDF พื้นฐาน ไลบรารี Pdfminer.six แบบโอเพ่นซอร์สช่วยให้นักพัฒนา Python แปลงเอกสาร PDF เป็นข้อความด้วยคำสั่งง่ายๆ ก่อนอื่นคุณต้องระบุเส้นทางไปยังไฟล์ PDF และไฟล์ข้อความ หากเอกสารมีการป้องกันด้วยรหัสผ่าน คุณต้องระบุรหัสผ่านด้วย ตัวอย่างโค้ดต่อไปนี้สามารถใช้เพื่อให้บรรลุเป้าหมาย โดยจะส่งกลับสตริงในรูปแบบ PDF โดยระบุชื่อไฟล์ คุณสามารถบันทึกลงในไฟล์ได้อย่างง่ายดาย

แปลงไฟล์ PDF เป็นรูปแบบข้อความผ่าน Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 ไทย