kbdb-ingest-plugin/system-dev/wiki/cards/ingest/extract-模型策略.md

---
tags: [萃取策略, 模型策略]
gloss: ingest 走路徑 B 萃裸原文時的模型選擇與品質把關策略——用戶選意圖、品質門檻白名單、淺萃預設 Haiku、深萃 Claude、JSON-fail 升級閘。
---
# extract 模型策略

← [[ingest/00-INDEX]]

**來源**：`docs/3-specs/ingest-pipeline/{requirements,design}.md`、`CLAUDE.md`、`contracts/ingest-candidate.json`（extractor.tier）
**最後更新**：2026-06-26
> 跨專案完整版在 InkStoneCo `docs/3-specs/mira-dissolve/design.md §6.6`。本卡距離 ingest 內部要點。

## 摘要

只在路徑 B（裸原文萃取）才用。模型由用戶選「意圖」非「型號」，有品質門檻白名單把關，預設淺萃、必要時升級深萃。

## 重點

- **用戶選意圖非型號**：像 `/model` 那樣選意圖（要快/要深），不是選具體型號。
- **品質門檻白名單**：模型要入白名單須過門檻——萃得出「深層暗示」+「中文過關」。難度隨來源分層：AI 報告弱模型夠、人類 vault（口語、暗示多）須好模型。
- **兩 tier**（對應 envelope `extractor.tier`）：`shallow` = Workers AI 淺萃（預設 Haiku，走 API 便宜）；`deep` = Claude 深萃 via CC（走月費不走 API）。
- **JSON-fail 升級閘**：淺萃 JSON 解析失敗 / 萃出過稀 → 自動升級到 deep 重萃。
- **第一版不 embed**：embed 等 base vectorize 就緒（InkStoneCo T2.4）；ingest 本來就不算向量（見 [[envelope-契約]] 打標分工），第一版連打標執行端都還沒接，先跑萃取本身。
- 模型測試集（中文 + 人類暗示樣本、轉回歸測試）為 deferred（SDD T3.3），先跑預設。

## 實體

- **品質門檻白名單** — 模型須萃得出深層暗示+中文過關才入選的把關機制。
- **淺萃**（shallow tier／Workers AI／預設 Haiku）— 便宜快速的預設萃取層，走 API。
- **深萃**（deep tier／Claude via CC）— 較貴較準的萃取層，淺萃失敗時升級，走月費。
- **JSON-fail 升級閘** — 淺萃解析失敗或過稀時自動升 deep 的閘門。
- **選意圖非型號** — 用戶像 /model 那樣選萃取意圖、而非指定具體模型的選擇方式。

## 關聯
### 內文知識關係（端點＝上方 `## 實體` 正規名）
- JSON-fail 升級閘 >> 觸發升級到 >> 深萃
- 淺萃 >> 升級為 >> 深萃
- 品質門檻白名單 >> 把關 >> 選意圖非型號
### 卡片關係（卡對卡）
- [[extract-模型策略]] >> 屬於路徑B於 >> [[採取優先於萃取]]
- [[extract-模型策略]] >> 產物送進 >> [[envelope-契約]]