arcrun — AI workflow execution engine (clean history)
Self-hosted 開源:WASM 零件 + recipe + cypher-executor,跑在你自己的 Cloudflare。 此為重建的乾淨歷史起點(移除曾誤 commit 的 GCP SA 金鑰,舊歷史保留在 richblack/arcrun 與本地 backup 分支)。含: - acr init --self-hosted installer(建 KV/R2 + codeload 拉預編譯 wasm + wrangler deploy + seed recipe) - recipe push 把關(資料外流提醒 + 打通檢查) - 19 個正當零件預編譯 wasm(claude_api/km_writer/kbdb_upsert_block 排除:違反 DECISIONS §1) - CLI / cypher-executor / registry / 完整 SDD Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,40 @@
|
||||
# pdf-to-blocks
|
||||
|
||||
## 解決什麼問題
|
||||
研究 / 學習:丟一份 PDF 進來,自動轉文字 + 切 chunk + 存 KBDB,之後可 RAG search。
|
||||
適合做:論文閱讀庫、合約查詢、技術文件 RAG。
|
||||
|
||||
## 怎麼觸發
|
||||
```bash
|
||||
curl -X POST https://cypher.arcrun.dev/webhooks/named/pdf_to_blocks/trigger \
|
||||
-H "X-Arcrun-API-Key: ak_xxx" \
|
||||
-d '{
|
||||
"api_key":"ak_xxx",
|
||||
"pdf_url":"https://arxiv.org/pdf/2411.02959.pdf",
|
||||
"title":"HtmlRAG",
|
||||
"user_id":"inkstone_leo_research"
|
||||
}'
|
||||
```
|
||||
|
||||
## 怎麼用後續
|
||||
搭配 `rag-search-answer` workflow:
|
||||
```bash
|
||||
curl ... rag_search_answer/trigger \
|
||||
-d '{"question":"HtmlRAG 對 Markdown 的優勢是什麼?", "user_id":"inkstone_leo_research"}'
|
||||
```
|
||||
→ claude 從你剛 ingest 的 PDF chunks 找 context 回答
|
||||
|
||||
## 改成你自己的
|
||||
- 替換 convert 來源(cto.finally.click 也有 convert,自家環境可用)
|
||||
- `kbdb_ingest` 預設 chunk ~500 字,要改在 KBDB 端設
|
||||
- `source: "pdf:{url}"` 是 idempotency key — 同 URL 重複 ingest 會被偵測
|
||||
|
||||
## 變體
|
||||
- 接 `claude_api` 在 ingest 後跑「自動 tag」流程(每個 chunk 抽 keyword tag)
|
||||
- 接 `email-summary` pattern:訂閱 arxiv RSS → 自動 PDF 收進來
|
||||
- 把 ingest 結果 trigger `wiki_synthesis`(mira 用此 chain)
|
||||
|
||||
## 學到什麼
|
||||
- KBDB 有 `/convert` endpoint 直接吃 PDF / DOC,不用自己處理 OCR
|
||||
- `kbdb_ingest` 自動 chunking + embedding 一條龍
|
||||
- `source: "{type}:{key}"` 是 KBDB idempotency 慣例
|
||||
Reference in New Issue
Block a user