1. Товары
  2.   PDF
  3.   Python
  4.   Pdfrw
 
  

Библиотека Python с открытым исходным кодом для преобразования PDF-файлов

Бесплатный Python API позволяет разработчикам экспортировать, поворачивать, объединять и объединять PDF-файлы, извлекать данные и элементы из PDF-файлов.

pdfrw — это чистая библиотека Python с открытым исходным кодом, которая позволяет разработчикам программного обеспечения читать и записывать PDF-файлы без установки какого-либо внешнего специального программного обеспечения. Библиотека программирования pdfrw очень проста в использовании, ее исходный код хорошо документирован, очень прост и понятен. Библиотека включает надлежащую поддержку Unicode для текстовых строк в PDF-файлах, а также самый быстрый чистый Python-парсер PDF.

Библиотека pdfrw включает поддержку нескольких важных операций с PDF, таких как слияние PDF-файлов, изменение метаданных, объединение нескольких PDF-файлов вместе, извлечение изображений, печать PDF-файлов, поворот страниц PDF, создание нового PDF-файла, добавление изображения PDF с водяным знаком и многое другое.

.

Previous Next

Начало работы с pdfrw

pdfrw требует Python 2.6, 2.7, 3.3, 3.4, 3.5 и 3.6. Вы можете установить pdfrw с помощью pip. Пожалуйста, используйте следующую команду для его установки.

Установите pdfrw через pip

 python -m pip install pdfrw  

Создавайте PDF-документы с помощью библиотеки Python

Библиотека pdfrw предоставляет разработчикам программного обеспечения возможность создавать документы PDF в своих собственных приложениях Python, написав всего пару строк кода. Библиотека также поддерживает доступ к существующим PDF-файлам и их изменение. Вы можете легко вставлять новые страницы, а также графические компоненты или текстовые элементы в существующий PDF-файл. Библиотека pdfrw поддерживает поиск страниц в PDF-файлах, которые вы читаете, и запись набора страниц обратно в новый PDF-файл.

Создание и изменение PDF-документов с помощью Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Чтение PDF-файлов через Python

Библиотека pdfrw позволяет разработчикам программного обеспечения легко получать доступ и читать различные части PDF-документов внутри приложений Python. Это дает легкий доступ ко всему документу PDF. Библиотека поддерживает получение информации о файле, его размере и многом другом. Он создает специальный атрибут с именем pages, который позволяет пользователям перечислять все страницы PDF-документа. Он позволяет вам извлечь объект информации о документе, который вы можете использовать для извлечения такой информации, как автор, название и т. д.

Доступ и чтение PDF-файлов через Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Добавление или изменение метаданных

pdfrw позволяет разработчикам программного обеспечения добавлять или изменять метаданные PDF-файлов в своих собственных приложениях Python. Вы можете изменить один элемент метаданных в PDF-файле, записать результат в новый PDF-файл, а также включить несколько файлов и объединить их после добавления некоторых бессмысленных метаданных в выходной PDF-файл.

Изменить метаданные PDF через Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Разделение PDF-документов

pdfrw позволяет разработчикам программного обеспечения программно разделять документы PDF внутри своих приложений. Пользователю может потребоваться извлечь определенную часть книги PDF или разделить ее на несколько PDF-файлов вместо того, чтобы хранить их в одном файле. С библиотекой pdfrw это очень просто: вам просто нужно указать путь к входному файлу PDF, количество страниц, которые вы хотите извлечь, и выходной путь.

Разделить PDF-файл на несколько PDF-файлов через Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Русский