1. Produtos
  2.   PDF
  3.   Python
  4.   Pikepdf
 
  

Biblioteca Python de código aberto para processar arquivos PDF

A API Python gratuita permite linearizar PDFs e acessar PDFs criptografados. Ele é compatível com a criação de PDF do zero, copiando páginas de um PDF para outro, dividindo ou mesclando PDFs e muito mais.

PikePDF é uma biblioteca de PDF em Python muito simples que permite que desenvolvedores de software trabalhem com arquivos PDF dentro de aplicativos Python. É baseado no QPDF, uma poderosa biblioteca de manipulação e reparo de PDF. PikePDF é uma biblioteca de transformação de conteúdo PDF e fornece acesso de baixo nível a arquivos PDF. Isso significa que os usuários precisam de conhecimento interno do PDF e familiaridade com as especificações do PDF. A biblioteca é de código aberto e está disponível sob a licença do MIT para uso público. A biblioteca é de código aberto e está disponível sob a licença MPL-2.0.

O PikePDF oferece suporte para linearização de PDFs e acesso a PDFs criptografados. Ele incluiu um conjunto muito poderoso de recursos relacionados ao gerenciamento de PDF, como criação de PDF a partir do zero, copiar páginas de um PDF para outro, dividir ou mesclar PDFs, extração de imagem ou texto de PDF, substituição de conteúdo em PDF, suporte para reparo de PDF, página configurações de suporte, gerenciar metadados PDF, trabalhar com proteção por senha, edição de metadados PDF XMP, a transformação de PDFs existentes e muito mais.

.

Previous Next

Introdução ao PikePDF

PikePDF requer Python 3.6 e superior. Você pode instalar o PikePDF usando pip. Por favor, use o seguinte comando para instalá-lo.

Instale o PikePDF via pip

 pip install pikepdf

Copie páginas de um PDF para outro via Python

A biblioteca de código aberto PikePDF fornece o recurso que permite aos desenvolvedores de software co-pagar páginas de um PDF para outro com apenas algumas linhas de código Python. Copiar páginas entre objetos PDF criará uma cópia superficial da página de origem no arquivo PDF de destino e, portanto, modificar as páginas não afetará os documentos PDF originais. Também é possível substituir páginas específicas por conteúdo personalizado. Também é possível copiar páginas dentro de um determinado PDF.

Abra e manipule documentos PDF via Python

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

Divisão e mesclagem de PDF via Python

A biblioteca PDF PikePDF oferece aos desenvolvedores de software o poder de acessar arquivos PDF existentes e dividi-los em vários arquivos PDF com facilidade. Ao dividir o PDF, tudo o que precisamos é que os novos PDFs contenham as páginas de destino. A biblioteca também garante a transferência de dados associados a cada página, para que cada página seja independente. A biblioteca também inclui suporte para mesclar ou concatenar vários documentos PDF em um único. Também é possível reverter a ordem das páginas do PDF com apenas algumas linhas de código.

Dividir e mesclar documentos PDF via Python

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

Gerenciar imagens dentro do documento PDF via Python

A biblioteca PDF PikePDF facilita para os desenvolvedores de software o manuseio de imagens dentro de um arquivo PDF usando comandos Python. A biblioteca inclui várias funções importantes relacionadas ao manuseio de imagens, como copiar imagens na página PDF, abrir e visualizar PDF, redimensionar imagens, manipular imagens em um PDF, extrair imagens de PDF, substituir imagens, excluir uma imagem de PDF e muito mais .

Extraia a imagem e substitua-a em PDF via Python

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

Manipulação de metadados PDF via Python

Os metadados PDF incluem informações muito úteis sobre um documento PDF, como o nome do autor, data de criação e modificação, palavras-chave, informações sobre direitos autorais e assim por diante. A biblioteca PDF PikePDF incluiu funcionalidade completa para acessar e ler metadados, extrair metadados, excluir entradas de metadados de documentos PDF. O exemplo de código a seguir mostra como extrair metadados de documentos PDF.

Como extrair metadados de PDF via Python

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)
 Português