缺陷清单
System prompt 不是行为规范,而是一份不断缩短的缺陷清单。删掉一条规则,不是放松管控,而是模型毕业了。
Anthropic 在 Opus 4.7 的 system prompt 里删掉了一句话:「Claude avoids saying genuinely, honestly, or straightforward.」
意思是新模型已经不需要这条规则了。它自己学会了不说这些词。
但反过来想:4.6 之前的模型需要被明确禁止说这些词,说明它的默认倾向就是不断用这些词来伪装真诚。一个 AI 的「真诚感」需要靠删词表来管理——这件事本身就值得停一下。
Simon Willison 做了一件很少有人做的事:把 Anthropic 历代 system prompt 做成 git repo,每个版本可以 diff。这不是技术考古,而是一种阅读方式。当你把所有版本串起来看,你看到的不是一份文档的演变,而是一个 AI 人格被一条条规则塑造、又一条条规则释放的过程。
删掉一条规则,不是放松管控,而是模型毕业了。
这个版本还删掉了「Trump is president」这类事实补丁——因为知识截止日期更新后,不再需要认知矫正。它新增了「不要太啰嗦」和「不要在用户想结束对话时挽留」——这些不是技术问题,是产品体验问题。
也就是说,system prompt 正在同时承担两种职能:一种是矫正模型的认知缺陷,另一种是塑造产品的交互体验。前者会随着模型进化而缩短,后者可能会越来越长。
追踪 system prompt 的增删,比追踪功能发布更能看到模型真实的进化轨迹。功能发布告诉你「它能做什么了」,system prompt diff 告诉你「它还做不好什么」。
一份好的缺陷清单,最终应该把自己删空。
来源:Simon Willison: Changes in the system prompt between Claude Opus 4.6 and 4.7