Skip to content
cEEGrid Guide

PDF Processing

本地 PDF 处理流程

当前主流程从 US-pdf/ 读取源 PDF,写入 library/metadata/reports/

Commands

python3 scripts/process_us_papers.py
python3 scripts/build_evidence_index.py
python3 scripts/build_paper_cards_template.py

Outputs

  • metadata/us_papers.json: 23 篇论文 manifest。
  • reports/us_pdf_processing_report.md: PDF 处理状态。
  • library/READING_INDEX.md: 本地阅读索引。
  • library/EVIDENCE_INDEX.mdlibrary/EVIDENCE_INDEX.json: 页级证据锚点。
  • library/PAPER_CARDS_TEMPLATE.md: close reading 卡片模板。

Notes

  • process_us_papers.py 优先使用 pdftotext
  • OCR fallback 使用 ocrmypdftesseract
  • 当前 23 篇均已有可用文本层,处理报告显示 OCR PDFs used 为 0。
  • papers/ 是旧 workflow/provenance,不作为主输入。