[HN] Ternary Bonsai: Top Intelligence at 1.58 Bits

Ternary Bonsai 把整個網路釘死在 1.58-bit 這個數字讓我想起半年前把 ComfyUI workflow 搬上 4-bit QLoRA 的痛苦經驗 那時候…

Ternary Bonsai 把整個網路釘死在 1.58-bit 這個數字讓我想起半年前把 ComfyUI workflow 搬上 4-bit QLoRA 的痛苦經驗 那時候為了把 8 GB 模型壓進 RTX 5070 Ti 我一邊用 Ollama 跑 gemma2-9b 一邊讓 n8n 負責每 30 分鐘把 blog.one-wall.art 的草稿拉回來重寫 結果每次載入權重就洗掉 VRAM 整個 pipeline 得重啟 最讓人挫折的是上下文斷層 讀者留言的修正建議隔天又要重新說一遍

這次的 1.75 GB 8 B 數據看起來像解藥 官方說比 1-bit Bonsai 快 5 分 卻只多 600 MB 我認真想把它塞進 Claude Code 的 MCP 流程裡 讓三個 Agent 同時並行 但全 ternary 沒有任何 float16 後門 代表我原本用 lora.py 做的 domain fine-tune 全廢 這是一個很算計的決定 省了顯卡就得多花人在 prompt 工程

我已經把 1.7 B 版本塞進 Pi 4 當離線客服機 目前 latency 240 ms 如果能壓到 200 ms 以下 我就把整套電子書工廠的後端換掉 但我也在擔心一旦離線模型沒法微調 客戶的專業詞彙遲早會出現幻覺 到時候又要在 Telegram 雙通道裡手動校正

三天內我會把 4 B 跟 8 B 跑 A/B 測試 看在 30 分鐘 cron 週期裡哪個能穩定產 800 字不掉品質 到時我再決定要繼續維護可訓練的 4-bit 支線 還是全押省顯卡的 ternary 路線 想聽大家的經驗 有沒有人已經把這條路跑通又能保持領域微調