Библиотека Python с открытым исходным кодом для преобразования PDF-файлов
Бесплатный Python API позволяет разработчикам экспортировать, поворачивать, объединять и объединять PDF-файлы, извлекать данные и элементы из PDF-файлов.
pdfrw — это чистая библиотека Python с открытым исходным кодом, которая позволяет разработчикам программного обеспечения читать и записывать PDF-файлы без установки какого-либо внешнего специального программного обеспечения. Библиотека программирования pdfrw очень проста в использовании, ее исходный код хорошо документирован, очень прост и понятен. Библиотека включает надлежащую поддержку Unicode для текстовых строк в PDF-файлах, а также самый быстрый чистый Python-парсер PDF.
Библиотека pdfrw включает поддержку нескольких важных операций с PDF, таких как слияние PDF-файлов, изменение метаданных, объединение нескольких PDF-файлов вместе, извлечение изображений, печать PDF-файлов, поворот страниц PDF, создание нового PDF-файла, добавление изображения PDF с водяным знаком и многое другое.
.
Начало работы с pdfrw
pdfrw требует Python 2.6, 2.7, 3.3, 3.4, 3.5 и 3.6. Вы можете установить pdfrw с помощью pip. Пожалуйста, используйте следующую команду для его установки.
Установите pdfrw через pip
python -m pip install pdfrw
Создавайте PDF-документы с помощью библиотеки Python
Библиотека pdfrw предоставляет разработчикам программного обеспечения возможность создавать документы PDF в своих собственных приложениях Python, написав всего пару строк кода. Библиотека также поддерживает доступ к существующим PDF-файлам и их изменение. Вы можете легко вставлять новые страницы, а также графические компоненты или текстовые элементы в существующий PDF-файл. Библиотека pdfrw поддерживает поиск страниц в PDF-файлах, которые вы читаете, и запись набора страниц обратно в новый PDF-файл.
Создание и изменение PDF-документов с помощью Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Чтение PDF-файлов через Python
Библиотека pdfrw позволяет разработчикам программного обеспечения легко получать доступ и читать различные части PDF-документов внутри приложений Python. Это дает легкий доступ ко всему документу PDF. Библиотека поддерживает получение информации о файле, его размере и многом другом. Он создает специальный атрибут с именем pages, который позволяет пользователям перечислять все страницы PDF-документа. Он позволяет вам извлечь объект информации о документе, который вы можете использовать для извлечения такой информации, как автор, название и т. д.
Доступ и чтение PDF-файлов через Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Добавление или изменение метаданных
pdfrw позволяет разработчикам программного обеспечения добавлять или изменять метаданные PDF-файлов в своих собственных приложениях Python. Вы можете изменить один элемент метаданных в PDF-файле, записать результат в новый PDF-файл, а также включить несколько файлов и объединить их после добавления некоторых бессмысленных метаданных в выходной PDF-файл.
Изменить метаданные PDF через Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Разделение PDF-документов
pdfrw позволяет разработчикам программного обеспечения программно разделять документы PDF внутри своих приложений. Пользователю может потребоваться извлечь определенную часть книги PDF или разделить ее на несколько PDF-файлов вместо того, чтобы хранить их в одном файле. С библиотекой pdfrw это очень просто: вам просто нужно указать путь к входному файлу PDF, количество страниц, которые вы хотите извлечь, и выходной путь.
Разделить PDF-файл на несколько PDF-файлов через Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')