验收开始搬进工作台里

这次 Codex 更新真正让我停住的，不是它又多会写代码了，而是产品开始把验收也一起收回来。

以前 agent 更像这样分工：它负责生成，你负责切去别处检查。网页要不要自己点，GUI 有没有真跑通，输出文件长什么样，最后还是得人跳出聊天框，一层层回看。现在 in-app browser、computer use、artifact preview、task sidebar、chats 这些东西摆在一起，意思就不太一样了。它们不是零散功能，而是在把验证层往前推：不是做完再说，而是让 agent 在同一块工作面里继续动手、回看、补动作，再把结果交回来。

更关键的是，OpenAI 连治理边界也一起摆出来了。computer use 不是无约束接管，而是要装插件、开屏幕录制和辅助功能权限、逐 app 审批、任务本身也要先 scoped。说明这轮竞争已经不只是“谁更会生成”，而是“谁能把接手和验收做成一条顺手、可治理、能长期用的默认路径”。

模型能力当然还重要，但真正开始决定手感的，已经是验证层有没有被产品化。会写代码还不够，下一步是谁先把“我怎么知道它真的行”也一起做进来。

来源：