Files
kbdb-ingest-plugin/system-dev/wiki/cards/ingest/採取優先於萃取.md
T
Leo 06e901f590 chore: template 1.9.x 知識庫遷移 → system-dev/
把 system-dev-template 1.9.x 的知識庫基建搬進 git(從功能 PR 拆出,獨立成筆):
- system-dev/wiki/:LLM 記憶系統(principles 鐵律 + 5 張 ingest 卡 + INDEX/TAXONOMY + status/mistakes)
- system-dev/docs/:SDD 新家(3-specs/ + 2-architecture/ + README/SKILL);ingest-pipeline SDD 從 docs/3-specs/ 搬來
- system-dev/scripts/:install/update
- .claude/:wiki/SDD harness(commands + hooks:session-recall / sdd-guard / wiki-secret-scan)

SDD 位置統一:docs/3-specs/ingest-pipeline → system-dev/docs/3-specs/ingest-pipeline
(對齊 SDD guard hook 預期路徑 + template 1.9.x 規約)。

純基建遷移,不含任何功能程式碼(src/tests/contracts 在功能 PR #3)。

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-26 20:45:18 +08:00

2.2 KiB
Raw Blame History

tags, gloss
tags gloss
ingest管線
萃取策略
架構設計
ingest 取得三元組的兩條路徑——優先「採取」本地 CC 已建好的三元組,無則才自己「萃取」裸原文。

採取優先於萃取

ingest/00-INDEX

來源CLAUDE.mdREADME.mddocs/3-specs/ingest-pipeline/{requirements,design}.md 最後更新2026-06-26

摘要

ingest 拿三元組有兩條路:路徑 A 採取(拉本地已建好的)優先,路徑 B 萃取(自己萃裸原文)是 fallback。

重點

  • 路徑 A 採取(優先)repo 用了 system-dev-template、本地 CC 已建好三元組 + gloss → ingest 直接拉取,不重萃。
  • 路徑 B 萃取(fallback:裸原文、本地沒三元組 → ingest 自己 extract 出候選 (s,p,o) + gloss。
  • 為什麼採取優先:知識連結長在「生產的當下」(local CC 有 LLM Wiki 指引、有完整脈絡),本地萃成效更好;下游 ingest 只有單檔/跨庫視角,臨時補的 gloss 會貼不合(=胡扯)。所以 gloss 與三元組同階段由 local CC 建,不留給 ingest 補。
  • 兩路共同收斂到:跨 repo 匯總 → 織跨庫關聯 → POST envelope。跨庫織網才是 ingest 不可取代的主職(見 跨repo織網),採取/萃取只是取得素材的前段。
  • extract 的模型與品質細節見 extract-模型策略

實體

  • 採取(路徑 A/拉)— ingest 直接拉本地 CC 已建好三元組+gloss、不重萃的取得方式。
  • 萃取(路徑 Bextractfallback)— 本地無三元組時,ingest 自己從裸原文萃出候選 (s,p,o)+gloss。
  • gloss — 一句話描述某 node 是什麼,供下游 base embed normalize 同義詞用。
  • system-dev-template(精耕模板)— 讓 local CC 在知識生產當下建好三元組+gloss 的模板,決定一個 repo 走採取或萃取。

關聯

內文知識關係(端點=上方 ## 實體 正規名)

  • 採取 >> 優先於 >> 萃取
  • 採取 >> 依賴於 >> system-dev-template
  • gloss >> 產出於 >> 採取
  • 萃取 >> 退而求其次補 >> gloss

卡片關係(卡對卡)