Skip to content

PDF-to-LaTeX: 還原原始頁碼 #9

@kiki830621

Description

@kiki830621

問題

OCR 轉錄產出的 accumulated.tex 包含 %% === Page N === 頁面標記,記錄了每段內容對應的原書頁碼。但編譯後的 PDF 頁碼從 1 開始順序編號,不符合原書。

預期行為

  • 章節起始頁碼應與原書一致(如 Chapter 2 從 Page 18 開始)
  • 前言(Preface)使用 Roman numerals(如果原書如此)
  • 目錄頁碼正確

實作方案

LaTeXNormalizernormalizeProject() 中新增步驟:

  1. 解析所有 %% === Page N === 標記
  2. \chapter\chapter* 之前找到最近的 Page 標記
  3. \chapter 前插入 \setcounter{page}{N}
  4. \begin{document} 後設定第一頁頁碼

影響範圍

  • packages/pdf-to-latex-swift/Sources/PDFToLaTeXCore/LaTeXNormalizer.swift
  • packages/pdf-to-latex-swift/Tests/PDFToLaTeXCoreTests/LaTeXNormalizerTests.swift

測試驗證

  • Hansen 教科書 accumulated.tex 編譯後 Chapter 1 從 Page 10 開始
  • 冪等性:重跑 normalizer 不改變結果

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions