Этот репозиторий содержит Rust-код для обработки PDF-документов TokenBel: извлечения таблиц, OCR-обработки, нормализации финансовых данных и подготовки результатов для дальнейшего использования в продукте.
pdf_pipeline/- основной workspace для работы с PDFtbel-pdf/- единый crate с моделями, OCR-адаптерами, CLI и тестамиtests/- golden-файлы, фикстуры и регрессионные сценарии
Проект предназначен для автоматической обработки финансовой отчетности из PDF, включая:
- OCR и извлечение содержимого из документов
- поиск и выделение финансовых таблиц
- нормализацию заголовков, дат и числовых значений
- регрессионную проверку результатов по golden-файлам
cd pdf_pipeline
cargo test --workspace
cargo clippy --workspace --all-targets -- -D warnings
cargo fmt --all