# pdf-to-blocks ## 解決什麼問題 研究 / 學習:丟一份 PDF 進來,自動轉文字 + 切 chunk + 存 KBDB,之後可 RAG search。 適合做:論文閱讀庫、合約查詢、技術文件 RAG。 ## 怎麼觸發 ```bash curl -X POST https://cypher.arcrun.dev/webhooks/named/pdf_to_blocks/trigger \ -H "X-Arcrun-API-Key: ak_xxx" \ -d '{ "api_key":"ak_xxx", "pdf_url":"https://arxiv.org/pdf/2411.02959.pdf", "title":"HtmlRAG", "user_id":"inkstone_leo_research" }' ``` ## 怎麼用後續 搭配 `rag-search-answer` workflow: ```bash curl ... rag_search_answer/trigger \ -d '{"question":"HtmlRAG 對 Markdown 的優勢是什麼?", "user_id":"inkstone_leo_research"}' ``` → claude 從你剛 ingest 的 PDF chunks 找 context 回答 ## 改成你自己的 - 替換 convert 來源(cto.finally.click 也有 convert,自家環境可用) - `kbdb_ingest` 預設 chunk ~500 字,要改在 KBDB 端設 - `source: "pdf:{url}"` 是 idempotency key — 同 URL 重複 ingest 會被偵測 ## 變體 - 接 `claude_api` 在 ingest 後跑「自動 tag」流程(每個 chunk 抽 keyword tag) - 接 `email-summary` pattern:訂閱 arxiv RSS → 自動 PDF 收進來 - 把 ingest 結果 trigger `wiki_synthesis`(mira 用此 chain) ## 學到什麼 - KBDB 有 `/convert` endpoint 直接吃 PDF / DOC,不用自己處理 OCR - `kbdb_ingest` 自動 chunking + embedding 一條龍 - `source: "{type}:{key}"` 是 KBDB idempotency 慣例