PDF Processing
本地 PDF 处理流程
当前主流程从 US-pdf/ 读取源 PDF,写入 library/、metadata/ 和 reports/。
Commands
python3 scripts/process_us_papers.py
python3 scripts/build_evidence_index.py
python3 scripts/build_paper_cards_template.pyOutputs
metadata/us_papers.json: 23 篇论文 manifest。reports/us_pdf_processing_report.md: PDF 处理状态。library/READING_INDEX.md: 本地阅读索引。library/EVIDENCE_INDEX.md和library/EVIDENCE_INDEX.json: 页级证据锚点。library/PAPER_CARDS_TEMPLATE.md: close reading 卡片模板。
Notes
process_us_papers.py优先使用pdftotext。- OCR fallback 使用
ocrmypdf和tesseract。 - 当前 23 篇均已有可用文本层,处理报告显示 OCR PDFs used 为 0。
papers/是旧 workflow/provenance,不作为主输入。