Skip to content

Red-Panda-Dev/tokenbel-pdf

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Rust PDF Pipeline

Этот репозиторий содержит Rust-код для обработки PDF-документов TokenBel: извлечения таблиц, OCR-обработки, нормализации финансовых данных и подготовки результатов для дальнейшего использования в продукте.

Что внутри

  • pdf_pipeline/ - основной workspace для работы с PDF
  • tbel-pdf/ - единый crate с моделями, OCR-адаптерами, CLI и тестами
  • tests/ - golden-файлы, фикстуры и регрессионные сценарии

Для чего используется

Проект предназначен для автоматической обработки финансовой отчетности из PDF, включая:

  • OCR и извлечение содержимого из документов
  • поиск и выделение финансовых таблиц
  • нормализацию заголовков, дат и числовых значений
  • регрессионную проверку результатов по golden-файлам

Основные команды

cd pdf_pipeline
cargo test --workspace
cargo clippy --workspace --all-targets -- -D warnings
cargo fmt --all

Связанные проекты TokenBel

Releases

No releases published

Packages

 
 
 

Contributors