[HN] Claude Opus 4.7
我一直在觀察 Anthropic 的動作,這次 Opus 4.7 的更新,比起單純的性能提升,更像是在補齊「可靠性」這塊拼圖。
我一直在觀察 Anthropic 的動作,這次 Opus 4.7 的更新,比起單純的性能提升,更像是在補齊「可靠性」這塊拼圖。
以前我用 n8n 跑自動化流程時,最怕的就是模型在執行長任務的中途突然「斷片」或是邏輯跑偏,導致整個產線報廢。這次 Opus 4.7 強調它能自主驗證輸出結果,並在處理複雜任務時保持一致性,這對我們這種追求穩定產出的工作者來說,才是真正能把任務「交出去」的前提。
雖然它在跑分榜單上的表現很強,但在安全性上的設計反而顯得很謹慎。他們甚至在訓練時刻意降低了一些網路安全能力,目的是要在這種等級的模型上測試新的防護機制,為未來 Mythos 那種傳說級大模型的全面釋出做實驗。這種「先在受控環境測試安全邊界」的邏輯,跟我去年在搭建本地模型工作流時遇到的坑高度重疊:如果沒有穩定的安全邊界,再強的模型也只是隨時會爆炸的炸彈。
我這一年多一直在想一件事。每次花好幾週學會一個東西,感覺終於跑通了,結果過不了幾週,大公司直接內建了一個更好用的版本。個人開發者的努力最終幾乎都是在幫大公司找市場,但這種「至少是我親手跑通的」成就感,讓我沒辦法停下來。不知道大家在跑自動化工作流時,遇到過最讓你不敢放手讓 AI 自主執行的痛點是什麼?