Biblioteca PHP de código abierto para analizar archivos PDF

La API de PHP gratuita permite a los desarrolladores analizar archivos PDF, extraer datos y elementos de archivos PDF.

PDFParser es una biblioteca PHP de código abierto que permite a los desarrolladores de software analizar archivos PDF y extraer elementos PDF dentro de sus propias aplicaciones PHP. PDFParser está construido sobre el analizador TCPDF. PDFParser es una biblioteca PHP independiente que proporciona varias herramientas para extraer datos de un archivo PDF.

El formato de documento portátil (PDF) es uno de los formatos de documentos favoritos del mundo y sigue siendo muy popular. La API admite varias funciones importantes para el análisis de PDF, como cargar y analizar objetos y encabezados de PDF, extraer metadatos, extraer texto de páginas ordenadas, soporte de PDF comprimido, soporte de codificación de contenido octal y hexa, y mucho más.

de un vistazo

Una descripción general de las características de PDFParser.

Descripción de las características

Cargar objetos PDF
Analizar objetos
Analizar encabezados
Extraer metadatos
Extraer texto
PDF comprimido
codificación de juego de caracteres
codificación hexadecimal
codificación octal

Analizador de PDF

PDFParser admite el formato de archivo PDF, así como los formatos estándar de la industria para la exportación.

Lector

Escritor

TXT, HTML

Analizador de PDF

Independencia de la plataforma

PDFParser solo requiere el tiempo de ejecución de PHP.

PHP 5.3 y superior.

Analizador de PDF

Primeros pasos con PDFParser

La biblioteca PDFParser se descargará automáticamente a través de la línea de comando composer. Agregue PDFParser a su archivo composer.json.

Agregar comando a composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Use el compositor para descargar el paquete ejecutando el comando:

Analizar archivo PDF y extraer texto de cada página a través de PHP API

PDFParser proporciona la funcionalidad que permite a los programadores de computadoras analizar documentos PDF dentro de su propia aplicación PHP. Primero, debe crear los objetos necesarios y luego cargar el archivo PDF, el archivo analizado se puede almacenar en una variable y luego este objeto le permitirá manejar el PDF página por página. Ahora puede extraer fácilmente texto de todo el PDF o por páginas por separado. Una vez que se analiza el documento, ahora puede extraer fácilmente el texto de cada página del PDF.

Analizar archivo PDF a través de PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Extraer metadatos de un documento PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extraiga metadatos de PDF a través de la API de PHP

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Extraer texto de una página PDF específica

PDFParser permite a los desarrolladores extraer texto de páginas específicas con facilidad utilizando una pequeña cantidad de código. La API brinda a los desarrolladores la capacidad de manejar por separado cada página del documento PDF. Los desarrolladores pueden iterar a través de la matriz de páginas y recuperar texto de la página que elijan. El orden de la matriz es el mismo que el del documento PDF.

Extraer texto de PDF a través de PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();