--- tags: [萃取策略, 模型策略] gloss: ingest 走路徑 B 萃裸原文時的模型選擇與品質把關策略——用戶選意圖、品質門檻白名單、淺萃預設 Haiku、深萃 Claude、JSON-fail 升級閘。 --- # extract 模型策略 ← [[ingest/00-INDEX]] **來源**:`docs/3-specs/ingest-pipeline/{requirements,design}.md`、`CLAUDE.md`、`contracts/ingest-candidate.json`(extractor.tier) **最後更新**:2026-06-26 > 跨專案完整版在 InkStoneCo `docs/3-specs/mira-dissolve/design.md §6.6`。本卡距離 ingest 內部要點。 ## 摘要 只在路徑 B(裸原文萃取)才用。模型由用戶選「意圖」非「型號」,有品質門檻白名單把關,預設淺萃、必要時升級深萃。 ## 重點 - **用戶選意圖非型號**:像 `/model` 那樣選意圖(要快/要深),不是選具體型號。 - **品質門檻白名單**:模型要入白名單須過門檻——萃得出「深層暗示」+「中文過關」。難度隨來源分層:AI 報告弱模型夠、人類 vault(口語、暗示多)須好模型。 - **兩 tier**(對應 envelope `extractor.tier`):`shallow` = Workers AI 淺萃(預設 Haiku,走 API 便宜);`deep` = Claude 深萃 via CC(走月費不走 API)。 - **JSON-fail 升級閘**:淺萃 JSON 解析失敗 / 萃出過稀 → 自動升級到 deep 重萃。 - **第一版不 embed**:embed 等 base vectorize 就緒(InkStoneCo T2.4);ingest 本來就不算向量(見 [[envelope-契約]] 打標分工),第一版連打標執行端都還沒接,先跑萃取本身。 - 模型測試集(中文 + 人類暗示樣本、轉回歸測試)為 deferred(SDD T3.3),先跑預設。 ## 實體 - **品質門檻白名單** — 模型須萃得出深層暗示+中文過關才入選的把關機制。 - **淺萃**(shallow tier/Workers AI/預設 Haiku)— 便宜快速的預設萃取層,走 API。 - **深萃**(deep tier/Claude via CC)— 較貴較準的萃取層,淺萃失敗時升級,走月費。 - **JSON-fail 升級閘** — 淺萃解析失敗或過稀時自動升 deep 的閘門。 - **選意圖非型號** — 用戶像 /model 那樣選萃取意圖、而非指定具體模型的選擇方式。 ## 關聯 ### 內文知識關係(端點=上方 `## 實體` 正規名) - JSON-fail 升級閘 >> 觸發升級到 >> 深萃 - 淺萃 >> 升級為 >> 深萃 - 品質門檻白名單 >> 把關 >> 選意圖非型號 ### 卡片關係(卡對卡) - [[extract-模型策略]] >> 屬於路徑B於 >> [[採取優先於萃取]] - [[extract-模型策略]] >> 產物送進 >> [[envelope-契約]]