第一部分:模型很强,但为什么还是干不好活?

张开发
2026/6/9 15:09:37 15 分钟阅读
第一部分:模型很强,但为什么还是干不好活?
一个真实的失败现场2025年,某创业公司的技术负责人李明遇到了一件让他困惑的事。他订阅了 Claude Pro,GPT-4o 的 API key 也有,SWE-bench 排行榜上的数字他比谁都清楚——最强的 coding agent 在 Verified 数据集上已经能拿到 50-60% 的通过率。他觉得时机成熟了,可以放手让 AI agent 帮他改一个真实的项目。他信心满满地给 agent 下达了任务:“给用户模块加个搜索功能”。agent 跑了 20 分钟,花了 9 美元,然后自信满满地报告"完成了"。李明打开代码一看,血压上来了:搜索功能确实加了,但测试全挂了用的是项目里已经废弃的旧版 SQLAlchemy 语法API 端点没走团队统一要求的 OAuth 2.0 认证端点实际有运行时错误,根本跑不起来李明的第一反应是什么?“这模型不行,得换一个更贵的。”且慢。同一匹马,两种命运Anthropic 做过一个对照实验。同样的 prompt:“做一个 2D 复古游戏编辑器”。同样的模型:Opus 4.5。第一次,让它裸跑。20 分钟,花了 9 美元。游戏核心功能根本跑不起来。第二次,给它配上完整的 harness——planner + generator + evaluator 三 agent 架构。

更多文章