# pdf-to-blocks

## 解決什麼問題
研究 / 學習：丟一份 PDF 進來，自動轉文字 + 切 chunk + 存 KBDB，之後可 RAG search。
適合做：論文閱讀庫、合約查詢、技術文件 RAG。

## 怎麼觸發
```bash
curl -X POST https://cypher.arcrun.dev/webhooks/named/pdf_to_blocks/trigger \
  -H "X-Arcrun-API-Key: ak_xxx" \
  -d '{
    "api_key":"ak_xxx",
    "pdf_url":"https://arxiv.org/pdf/2411.02959.pdf",
    "title":"HtmlRAG",
    "user_id":"inkstone_leo_research"
  }'
```

## 怎麼用後續
搭配 `rag-search-answer` workflow：
```bash
curl ... rag_search_answer/trigger \
  -d '{"question":"HtmlRAG 對 Markdown 的優勢是什麼?", "user_id":"inkstone_leo_research"}'
```
→ claude 從你剛 ingest 的 PDF chunks 找 context 回答

## 改成你自己的
- 替換 convert 來源（cto.finally.click 也有 convert，自家環境可用）
- `kbdb_ingest` 預設 chunk ~500 字，要改在 KBDB 端設
- `source: "pdf:{url}"` 是 idempotency key — 同 URL 重複 ingest 會被偵測

## 變體
- 接 `claude_api` 在 ingest 後跑「自動 tag」流程（每個 chunk 抽 keyword tag）
- 接 `email-summary` pattern：訂閱 arxiv RSS → 自動 PDF 收進來
- 把 ingest 結果 trigger `wiki_synthesis`（mira 用此 chain）

## 學到什麼
- KBDB 有 `/convert` endpoint 直接吃 PDF / DOC，不用自己處理 OCR
- `kbdb_ingest` 自動 chunking + embedding 一條龍
- `source: "{type}:{key}"` 是 KBDB idempotency 慣例