Skip to content

PDF Processing

本地 PDF 处理流程

当前主流程从 US-pdf/ 读取源 PDF，写入 library/、metadata/ 和 reports/。

Commands

python3 scripts/process_us_papers.py
python3 scripts/build_evidence_index.py
python3 scripts/build_paper_cards_template.py

Outputs

metadata/us_papers.json: 23 篇论文 manifest。
reports/us_pdf_processing_report.md: PDF 处理状态。
library/READING_INDEX.md: 本地阅读索引。
library/EVIDENCE_INDEX.md 和 library/EVIDENCE_INDEX.json: 页级证据锚点。
library/PAPER_CARDS_TEMPLATE.md: close reading 卡片模板。

Notes

process_us_papers.py 优先使用 pdftotext。
OCR fallback 使用 ocrmypdf 和 tesseract。
当前 23 篇均已有可用文本层，处理报告显示 OCR PDFs used 为 0。
papers/ 是旧 workflow/provenance，不作为主输入。