Разработвайте приложения за работа с PDF файлове чрез Python Library
API на Python с отворен код, способен на разделяне, обединяване, изрязване и трансформиране на страниците на PDF файлове, добавяне на персонализирани данни и пароли към PDF.
PyPDF2 е библиотека с чист Python с отворен код, която предоставя възможност за работа с PDF файлове в приложения на Python без никакви външни зависимости. Библиотеката включва поддръжка за множество важни PDF функции, като обединяване на множество PDF файлове, извличане на съдържанието на PDF файл, завъртане на страниците на PDF файл под ъгъл, мащабиране на PDF страници, трансформиране на страниците на PDF файлове, извличане на изображения от PDF страници и много повече.
Програмната библиотека с отворен код PyPDF2 е много лесна за използване и изходният код е добре документиран и лесен за разбиране. Библиотеката позволява на разработчиците да четат и извличат метаданни на PDF файлове като брой страници, автор, създател, време на създаване и последна актуализация и т.н. Библиотеката също така поддържа криптиране и декриптиране на PDF файлове само с няколко реда код на Python.
.
Първи стъпки с PyPDF2
PyPDF2 не идва като част от стандартната библиотека на Python, така че ще трябва да го инсталирате сами. Предпочитаният начин да направите това е да използвате pip.
Инсталирайте PyPDF2 чрез pip
python -m pip install pypdf2
Извличане на текст от PDF чрез Python
Библиотеката PyPDF2 предоставя възможност за програмно извличане на текст от PDF файлове чрез Python. Не е лесно да се извлекат данни от PDF файл, защото начинът, по който PDF съхранява информацията, просто затруднява постигането му. PyPDF2 улеснява работата на разработчиците, като им предоставя лесни за използване вградени функции за извличане на информация. Те могат да използват метода extractText() на обекта на страницата, за да получат текстовото съдържание на страницата.
Извличане на текст от PDF чрез Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Четене на PDF файлове чрез Python
Библиотеката PyPDF2 предоставя възможност за програмно извличане на текст от PDF файлове чрез Python. Не е лесно да се извлекат данни от PDF файл, защото начинът, по който PDF съхранява информацията, просто затруднява постигането му. PyPDF2 улеснява работата на разработчиците, като им предоставя лесни за използване вградени функции за извличане на информация. Те могат да използват метода extractText() на обекта на страницата, за да получат текстовото съдържание на страницата.
Четене на PDF файл чрез Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Обединяване или разделяне на PDF документи
Били ли сте някога в ситуация, в която трябва да обедините два или повече PDF файла в един документ? Организацията често изисква обединяване на множество PDF файлове в един документ. Библиотеката PyPDF2 предоставя възможност за комбиниране на PDF файлове само с няколко реда код на Python. Разработчиците могат също лесно да разделят големи PDF документи на по-малки според нуждите си. Разработчиците могат лесно да извлекат определена част от PDF книга или да я разделят на множество PDF файлове
Обединете PDF файлове чрез Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Извличане на метаданни от PDF файлове
Библиотеката PyPDF2 включва функционалност за извличане на метаданни от PDF документи с помощта на няколко команди на Python. Можете лесно да получите информация за автора, приложението на създателя, броя на страниците, заглавието на документа и датите на създаване и т.н. Можете лесно да извлечете метаданни от PDF документи и да ги използвате според вашите нужди.
Извличане на метаданни от PDF чрез Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)