[HN] Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model
去年我還在用 qwen3.1-14B 跑藝術塗料報價腳本,3.5-27B dense 一出,我把整條 pipeline 從 14B → 27B 重拉一遍。重跑後發現:dens…
去年我還在用 qwen3.1-14B 跑藝術塗料報價腳本,3.5-27B dense 一出,我把整條 pipeline 從 14B → 27B 重拉一遍。重跑後發現:dense 模型真的比 MoE 好,但有一個前提——你得願意把 22 GB VRAM 鎖死在單任務,不然上下文斷層會讓你半夜爬起來 rollback。
我等了至少半年,才等到一顆 27B dense 能在 Ollama + RTX 5070 Ti 穩定跑 7+1 CrewAI Agent 的模型。最頭痛的不是速度,而是前一代 MoE 的「快一下、錯一下」:場景一分鏡搞錯,整條影片就要重算。27B dense 的回應變異 < 5%,讓我每 30 分鐘自動 git push 的劇本不再炸鍋。
但我也在擔心——Anthropic 把 Claude Code 的 Agent SDK 做起來後,個人模型再好,終究要面對「要不要把程式碼審查權讓給更貴的雲端」。現在的折衷是:27B dense 負責本地程式碼審查,雲端留給 vision 任務,分工明確,維護成本還算可控。
踩出來的痛點是,每次把 27B dense 拆去跑多模態,GPU 就會把系統 RAM 吃滿,整台機子變暖氣片。不知道大家有沒有遇過 24 GB 顯卡撐兩條 Ollama 服務的經驗?想聽大家怎麼處理這個記憶體邊際。