Files
kbdb-ingest-plugin/system-dev/wiki/cards/ingest/extract-模型策略.md
T
Leo 06e901f590 chore: template 1.9.x 知識庫遷移 → system-dev/
把 system-dev-template 1.9.x 的知識庫基建搬進 git(從功能 PR 拆出,獨立成筆):
- system-dev/wiki/:LLM 記憶系統(principles 鐵律 + 5 張 ingest 卡 + INDEX/TAXONOMY + status/mistakes)
- system-dev/docs/:SDD 新家(3-specs/ + 2-architecture/ + README/SKILL);ingest-pipeline SDD 從 docs/3-specs/ 搬來
- system-dev/scripts/:install/update
- .claude/:wiki/SDD harness(commands + hooks:session-recall / sdd-guard / wiki-secret-scan)

SDD 位置統一:docs/3-specs/ingest-pipeline → system-dev/docs/3-specs/ingest-pipeline
(對齊 SDD guard hook 預期路徑 + template 1.9.x 規約)。

純基建遷移,不含任何功能程式碼(src/tests/contracts 在功能 PR #3)。

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-26 20:45:18 +08:00

42 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
tags: [萃取策略, 模型策略]
gloss: ingest 走路徑 B 萃裸原文時的模型選擇與品質把關策略——用戶選意圖、品質門檻白名單、淺萃預設 Haiku、深萃 Claude、JSON-fail 升級閘。
---
# extract 模型策略
← [[ingest/00-INDEX]]
**來源**`docs/3-specs/ingest-pipeline/{requirements,design}.md``CLAUDE.md``contracts/ingest-candidate.json`extractor.tier
**最後更新**2026-06-26
> 跨專案完整版在 InkStoneCo `docs/3-specs/mira-dissolve/design.md §6.6`。本卡距離 ingest 內部要點。
## 摘要
只在路徑 B(裸原文萃取)才用。模型由用戶選「意圖」非「型號」,有品質門檻白名單把關,預設淺萃、必要時升級深萃。
## 重點
- **用戶選意圖非型號**:像 `/model` 那樣選意圖(要快/要深),不是選具體型號。
- **品質門檻白名單**:模型要入白名單須過門檻——萃得出「深層暗示」+「中文過關」。難度隨來源分層:AI 報告弱模型夠、人類 vault(口語、暗示多)須好模型。
- **兩 tier**(對應 envelope `extractor.tier`):`shallow` = Workers AI 淺萃(預設 Haiku,走 API 便宜);`deep` = Claude 深萃 via CC(走月費不走 API)。
- **JSON-fail 升級閘**:淺萃 JSON 解析失敗 / 萃出過稀 → 自動升級到 deep 重萃。
- **第一版不 embed**embed 等 base vectorize 就緒(InkStoneCo T2.4);ingest 本來就不算向量(見 [[envelope-契約]] 打標分工),第一版連打標執行端都還沒接,先跑萃取本身。
- 模型測試集(中文 + 人類暗示樣本、轉回歸測試)為 deferred(SDD T3.3),先跑預設。
## 實體
- **品質門檻白名單** — 模型須萃得出深層暗示+中文過關才入選的把關機制。
- **淺萃**shallow tierWorkers AI/預設 Haiku)— 便宜快速的預設萃取層,走 API。
- **深萃**deep tierClaude via CC)— 較貴較準的萃取層,淺萃失敗時升級,走月費。
- **JSON-fail 升級閘** — 淺萃解析失敗或過稀時自動升 deep 的閘門。
- **選意圖非型號** — 用戶像 /model 那樣選萃取意圖、而非指定具體模型的選擇方式。
## 關聯
### 內文知識關係(端點=上方 `## 實體` 正規名)
- JSON-fail 升級閘 >> 觸發升級到 >> 深萃
- 淺萃 >> 升級為 >> 深萃
- 品質門檻白名單 >> 把關 >> 選意圖非型號
### 卡片關係(卡對卡)
- [[extract-模型策略]] >> 屬於路徑B於 >> [[採取優先於萃取]]
- [[extract-模型策略]] >> 產物送進 >> [[envelope-契約]]