SaaS-Bench实测23个真系统:最强AI Agent仅完整通过4个任务!
Benchmark成绩是幻觉
过去一年,GUI Agent的评测分数一路飙升,"全自动办公"似乎触手可及。但UniPat AI用SaaS-Bench撕碎了这个幻觉:23个真实SaaS系统、106个任务、六大专业领域,全部在Docker中本地部署,保留完整的前后端逻辑和业务数据。93.4%的任务跨越至少两个应用,最长操作轨迹超300步。这才是真实办公的样子。
最强模型也"全军覆没"
结果极其残酷。Claude Opus 4.7的检查点分数43.9%,端到端完
资讯
admin
2026-05-26
1