A biblioteca foi organizada para que a maior parte do uso passe por poucos pontos de entrada.
Objeto principal de configuração.
Campos mais úteis:
input_dir: diretório com PDFs.output_excel: caminho do Excel final.invoice_number_pattern: regex para número da fatura.invoice_date_pattern: regex para data da fatura.worksheet_name: nome da aba do Excel.status_completed: texto de sucesso.persist_to_database: habilita gravação no MySQL.database: instância deDatabaseConfig.recursive: busca recursiva.
Usado apenas se persist_to_database=True.
Campos:
hostuserpassworddatabasetable
Classe principal da biblioteca.
Método mais importante:
process() -> ProcessingResult
Resultado consolidado do processamento.
Propriedades:
recordsoutput_excelsuccess_counterror_count
Representa um PDF processado.
Campos:
invoice_numberinvoice_datefile_namestatus
Extrai o texto da primeira página do PDF.
Processa um único PDF e devolve um InvoiceRecord.
from pydf import InvoiceProcessor, ProcessorConfig
config = ProcessorConfig(
input_dir="examples/pdf_invoices",
output_excel="output/api_usage.xlsx",
)
result = InvoiceProcessor(config).process()
print(result.success_count)Use a API quando:
- você vai integrar o processamento em outro sistema Python;
- precisa manipular o
ProcessingResultem memória; - quer customizar o fluxo com mais controle.