[HN] Ternary Bonsai: Top Intelligence at 1.58 Bits

Ternary Bonsai 把整個網路釘死在 1.58-bit 這個數字讓我想起半年前把 ComfyUI workflow 搬上 4-bit QLoRA 的痛苦經驗那時候為了把 8 GB 模型壓進 RTX 5070 Ti 我一邊用 Ollama 跑 gemma2-9b 一邊讓 n8n 負責每 30 分鐘把 blog.one-wall.art 的草稿拉回來重寫結果每次載入權重就洗掉 VRAM 整個 pipeline 得重啟最讓人挫折的是上下文斷層讀者留言的修正建議隔天又要重新說一遍

這次的 1.75 GB 8 B 數據看起來像解藥官方說比 1-bit Bonsai 快 5 分卻只多 600 MB 我認真想把它塞進 Claude Code 的 MCP 流程裡讓三個 Agent 同時並行但全 ternary 沒有任何 float16 後門代表我原本用 lora.py 做的 domain fine-tune 全廢這是一個很算計的決定省了顯卡就得多花人在 prompt 工程

我已經把 1.7 B 版本塞進 Pi 4 當離線客服機目前 latency 240 ms 如果能壓到 200 ms 以下我就把整套電子書工廠的後端換掉但我也在擔心一旦離線模型沒法微調客戶的專業詞彙遲早會出現幻覺到時候又要在 Telegram 雙通道裡手動校正

三天內我會把 4 B 跟 8 B 跑 A/B 測試看在 30 分鐘 cron 週期裡哪個能穩定產 800 字不掉品質到時我再決定要繼續維護可訓練的 4-bit 支線還是全押省顯卡的 ternary 路線想聽大家的經驗有沒有人已經把這條路跑通又能保持領域微調

[HN] Ternary Bonsai: Top Intelligence at 1.58 Bits

相關文章

把整個專案當成硬碟：claude-context 讓 Claude 直接讀你的 codebase

Vercel Open Agents 實測：五分鐘把 Claude 變成背景程式碼工人

在 Debian/Ubuntu 上裝 Claude Desktop：非官方打包腳本實測與坑點