[HN] Different Language Models Learn Similar Number Representations

去年我把 gemma:7b 掛進 n8n 的流程讓它直接讀 Excel 報價單結果遇到三位數乘法就飄我以為是 prompt 問題直到讀了 arXiv:2604.20817 才把懷疑對象從「我不會寫 prompt」轉成「模型骨子裡沒長出分界線」作者拆開 10B tokens 的訓練結果發現 Transformer Linear RNN 甚至老 LSTM 都在內部養出同一套正弦週期 2 5 10 的 Fourier spike 我等了快半年才等到有人用數學收據證明這不是巧合而是收斂演化但真正讓我警覺的是表格裡那句「LSTM 的 spike 更明顯卻只有隨機猜的 probing 準確度」我把這句話貼給自己看的時候心裡那句話是：對這就是我在工地現場踩過的坑 7×180 混凝土單價算錯現場就炸現在我在 Claude Code 裡用 MCP 把報價模組拆出去用 Skill 文件限定只接 python-arithmetic 指令本地 gemma 只管語意數值驗算交回 CPU 這樣做的缺點很明顯：流程變成兩段維護成本立馬翻倍但至少不會因為升級模型把舊報價單全洗掉想聽大家怎麼處理「模型越大數值錯也越大」這件事你們是直接換閉源 API 還是跟我一樣硬拆兩段？

[HN] Different Language Models Learn Similar Number Representations

相關文章

把整個專案當成硬碟：claude-context 讓 Claude 直接讀你的 codebase

Vercel Open Agents 實測：五分鐘把 Claude 變成背景程式碼工人

在 Debian/Ubuntu 上裝 Claude Desktop：非官方打包腳本實測與坑點