--- tags: [ingest管線, 萃取策略, 架構設計] gloss: ingest 取得三元組的兩條路徑——優先「採取」本地 CC 已建好的三元組,無則才自己「萃取」裸原文。 --- # 採取優先於萃取 ← [[ingest/00-INDEX]] **來源**:`CLAUDE.md`、`README.md`、`docs/3-specs/ingest-pipeline/{requirements,design}.md` **最後更新**:2026-06-26 ## 摘要 ingest 拿三元組有兩條路:路徑 A 採取(拉本地已建好的)優先,路徑 B 萃取(自己萃裸原文)是 fallback。 ## 重點 - **路徑 A 採取(優先)**:repo 用了 system-dev-template、本地 CC 已建好三元組 + gloss → ingest 直接拉取,不重萃。 - **路徑 B 萃取(fallback)**:裸原文、本地沒三元組 → ingest 自己 extract 出候選 (s,p,o) + gloss。 - **為什麼採取優先**:知識連結長在「生產的當下」(local CC 有 LLM Wiki 指引、有完整脈絡),本地萃成效更好;下游 ingest 只有單檔/跨庫視角,臨時補的 gloss 會貼不合(=胡扯)。所以 gloss 與三元組同階段由 local CC 建,不留給 ingest 補。 - 兩路共同收斂到:跨 repo 匯總 → 織跨庫關聯 → POST envelope。**跨庫織網才是 ingest 不可取代的主職**(見 [[跨repo織網]]),採取/萃取只是取得素材的前段。 - extract 的模型與品質細節見 [[extract-模型策略]]。 ## 實體 - **採取**(路徑 A/拉)— ingest 直接拉本地 CC 已建好三元組+gloss、不重萃的取得方式。 - **萃取**(路徑 B/extract/fallback)— 本地無三元組時,ingest 自己從裸原文萃出候選 (s,p,o)+gloss。 - **gloss** — 一句話描述某 node 是什麼,供下游 base embed normalize 同義詞用。 - **system-dev-template**(精耕模板)— 讓 local CC 在知識生產當下建好三元組+gloss 的模板,決定一個 repo 走採取或萃取。 ## 關聯 ### 內文知識關係(端點=上方 `## 實體` 正規名) - 採取 >> 優先於 >> 萃取 - 採取 >> 依賴於 >> system-dev-template - gloss >> 產出於 >> 採取 - 萃取 >> 退而求其次補 >> gloss ### 卡片關係(卡對卡) - [[採取優先於萃取]] >> 細節見 >> [[extract-模型策略]] - [[採取優先於萃取]] >> 服務於 >> [[跨repo織網]]