长程任务

SaaS-Bench实测23个真系统：最强AI Agent仅完整通过4个任务！

Benchmark成绩是幻觉过去一年，GUI Agent的评测分数一路飙升，"全自动办公"似乎触手可及。但UniPat AI用SaaS-Bench撕碎了这个幻觉：23个真实SaaS系统、106个任务、六大专业领域，全部在Docker中本地部署，保留完整的前后端逻辑和业务数据。93.4%的任务跨越至少两个应用，最长操作轨迹超300步。这才是真实办公的样子。最强模型也"全军覆没" 结果极其残酷。Claude Opus 4.7的检查点分数43.9%，端到端完

资讯 admin 2026-05-26 87

长程任务

热点聚焦

最新标签

猜你喜欢