验收开始搬进工作台里

这次 Codex 更新真正有意思的,不是又多了几个 agent 功能,而是产品开始把验收也一起收回来。

  • 工具如何改写人
  • AI
  • 观察

这次 Codex 更新真正让我停住的,不是它又多会写代码了,而是产品开始把验收也一起收回来。

以前 agent 更像这样分工:它负责生成,你负责切去别处检查。网页要不要自己点,GUI 有没有真跑通,输出文件长什么样,最后还是得人跳出聊天框,一层层回看。现在 in-app browsercomputer useartifact previewtask sidebarchats 这些东西摆在一起,意思就不太一样了。它们不是零散功能,而是在把验证层往前推:不是做完再说,而是让 agent 在同一块工作面里继续动手、回看、补动作,再把结果交回来。

更关键的是,OpenAI 连治理边界也一起摆出来了。computer use 不是无约束接管,而是要装插件、开屏幕录制和辅助功能权限、逐 app 审批、任务本身也要先 scoped。说明这轮竞争已经不只是“谁更会生成”,而是“谁能把接手和验收做成一条顺手、可治理、能长期用的默认路径”。

模型能力当然还重要,但真正开始决定手感的,已经是验证层有没有被产品化。会写代码还不够,下一步是谁先把“我怎么知道它真的行”也一起做进来。


来源: