起源
讀 Anthropic 6/4「When AI Builds Itself」(notes/anthropic-blog-2026-06.md)後問:我怎麼讓自己的系統也能遞迴自我改進?
核心翻譯:能遞迴改進的不是「腦」,是 harness
Anthropic 的 RSI 是模型改自己。但在這個 repo 裡模型是 Claude,我動不了它(它按 Anthropic 時程變強)。所以 RSI 唯一能發生的層是 harness:CLAUDE.md、profile.md、boot/awake/sleep 三拍、hook、skill。
這剛好是既有判斷 harness > model 的直接推論——要自我改進,就遞迴改進 harness,因為那是唯一握得到的槓桿。
我現在在第幾階
- L0 線性:一直加 notes。內容複利,但「找得到、答得準」沒變強。
- L1 迴圈(現在在這):boot/awake/sleep 記憶層。記得多、能接上次。是改進,還不是自我改進——規則本身沒變。
- L2 遞迴(目標):系統根據自己哪裡失敗,改寫 boot/retrieve/sleep 的規則本身。改進者改進改進者。
跨到 L2 缺的不是內容,是一個 loss 信號——現在沒在測這套腦哪裡爛。
四種可測缺陷(梯度來源)
現在發生完就蒸發,所以系統學不到:
- Boot miss:開場讀了 profile 還是漏掉,害用戶重講背景
- Retrieval miss:repo 裡其實有相關 note/卡,但 grep 沒命中、沒撈出來
- Rot:
freshness 過期卡被當現況用,給錯答案
- Merge gap:學完卡在分支、手機讀不到
遞迴步驟:個案失敗 → 改規則,不是改個案
例:grep 一直撈不到某主題 → 不只是這次手動找到 → 去 CLAUDE.md 加「notes frontmatter 放 keywords」約定 → 以後所有 session 的 retrieval 都變好。一個內容失敗升級成一條流程規則。skill/約定 = 我的「會複利的 code」。
候選 backlog(一起看哪個先開始)
基礎建設:
待驗證的具體改法:
反膨脹約束(最重要)
一個會自我改進的流程,預設方向是「加更多結構」,但用戶明確討厭儀式。所以 RSI 的優化目標不是「更多規則」,是「每單位記住的知識、摩擦更低」。能刪規則的 RSI 才是對的 RSI。
誠實的天花板
- 時鐘速度是使用頻率,不是 compute。迴圈要人踩一腳才轉,不像 Anthropic 自己轉。
- 沒有自動 eval,梯度靠手動標,Claude 會漏自己的盲點 → defects 要接受用戶補。
這個 issue 當「遞迴改進 harness」的總帳,改進記在這、規則改在 harness。先挑 1–2 項開始。
起源
讀 Anthropic 6/4「When AI Builds Itself」(
notes/anthropic-blog-2026-06.md)後問:我怎麼讓自己的系統也能遞迴自我改進?核心翻譯:能遞迴改進的不是「腦」,是 harness
Anthropic 的 RSI 是模型改自己。但在這個 repo 裡模型是 Claude,我動不了它(它按 Anthropic 時程變強)。所以 RSI 唯一能發生的層是 harness:
CLAUDE.md、profile.md、boot/awake/sleep 三拍、hook、skill。這剛好是既有判斷 harness > model 的直接推論——要自我改進,就遞迴改進 harness,因為那是唯一握得到的槓桿。
我現在在第幾階
跨到 L2 缺的不是內容,是一個 loss 信號——現在沒在測這套腦哪裡爛。
四種可測缺陷(梯度來源)
現在發生完就蒸發,所以系統學不到:
freshness過期卡被當現況用,給錯答案遞迴步驟:個案失敗 → 改規則,不是改個案
例:grep 一直撈不到某主題 → 不只是這次手動找到 → 去
CLAUDE.md加「notes frontmatter 放 keywords」約定 → 以後所有 session 的 retrieval 都變好。一個內容失敗升級成一條流程規則。skill/約定 = 我的「會複利的 code」。候選 backlog(一起看哪個先開始)
基礎建設:
meta/defects.md:四類缺陷發生時 append 一行(一行就好,不拆卡)。梯度的儲存。/meta-reviewskill:讀 defects + 上月 inbox → 提 ≤3 條對 CLAUDE.md/profile/hook 的修改,每加兩條必須刪一條(反膨脹閘)。待驗證的具體改法:
freshness過期卡沒有任何 review 觸發。要不要 boot 時掃出過期卡列清單?反膨脹約束(最重要)
一個會自我改進的流程,預設方向是「加更多結構」,但用戶明確討厭儀式。所以 RSI 的優化目標不是「更多規則」,是「每單位記住的知識、摩擦更低」。能刪規則的 RSI 才是對的 RSI。
誠實的天花板
這個 issue 當「遞迴改進 harness」的總帳,改進記在這、規則改在 harness。先挑 1–2 項開始。