2026052604:57星期二 申请收录 标签云 工具箱
当前位置:首页资讯详情页

SaaS-Bench实测23个真系统:最强AI Agent仅完整通过4个任务!

资讯 admin 2026-05-26 0

Benchmark成绩是幻觉

过去一年,GUI Agent的评测分数一路飙升,"全自动办公"似乎触手可及。但UniPat AI用SaaS-Bench撕碎了这个幻觉:23个真实SaaS系统、106个任务、六大专业领域,全部在Docker中本地部署,保留完整的前后端逻辑和业务数据。93.4%的任务跨越至少两个应用,最长操作轨迹超300步。这才是真实办公的样子。

最强模型也"全军覆没"

结果极其残酷。Claude Opus 4.7的检查点分数43.9%,端到端完全通过分数仅3.8%——106个任务只完整走完4个。Kimi K2.5和Gemini 3.1 Pro的完全通过分数为零。Agent能推进部分中间环节,但几乎没有能力将完整长程工作流走完。多跑三次提升约8个百分点,但远非解决方案。

四种结构性失败

SaaS-Bench暴露了Agent的四大致命缺陷。第一,任务越长越做不对,通过率随执行呈不可逆下降曲线。第二,一步错步步错——一个3%权重的错误节点导致下游30%的分数损失。第三,做完不检查,Agent在意图层面认为成功,验证器在状态层面发现失败,缺少严谨的反思闭环。第四,同一任务三次运行分数从0到0.68剧烈波动,路径依赖让长程执行变成赌博。

底层问题

这四种失败指向同一个事实:当前Agent缺少对持久状态的有效推理能力,缺少操作后的闭环验证机制,缺少从错误中恢复的能力。这不是模型变大或加几个工程模块能解决的,而是当前范式的天花板——模型无法像人一样"心里有数"。

SaaS要为Agent重做

SaaS-Bench揭示的不只是Agent的短板,也是当前软件形态的保质期。今天的SaaS为人类设计——菜单、按钮、表单服务于人的眼睛和手指。但当Agent成为主要用户,这些界面就变成累赘。未来不是让Agent学会操作人类的软件,而是软件本身要为Agent重新设计。

相关文章