Agent-S官网,Simular AI 开发的开源代理框架,通过图形用户界面(GUI)实现人机交互的自动化
Agent-S 是一款由Simular AI 开发的开源代理框架,旨在通过图形用户界面(GUI)实现人机交互的自动化。它能够模拟人类操作方式,使用鼠标和键盘直接与计算机互动,处理复杂的多步骤任务。Agent-S 的核心功能包括自然语言交互、多任务自动化处理、跨平台兼容性以及持续学习和记忆更新。它支持 Windows、macOS 和 Linux 等主流操作系统,适用于办公自动化、系统设置、多应用工作流等多种场景。通过经验增强的分层规划和代理-计算机接口(ACI),Agent-S 能够高效地分解复杂任务并精确执行!
Agent-S官网: https://www.simular.ai/articles/agent-s
Agent S2:一个开放、模块化和可扩展的计算机使用代理框架
计算机使用代理是自主人工智能代理,它们可以观察、推理并代表人类用户执行任务,通过直接与图形用户界面(GUI)进行交互,包括桌面、移动设备、浏览器和各种软件。它们作为人类用户和他们的数字工具之间最直观的智能中介——就像人类一样,使用鼠标和键盘控制。这种类似人类的导航和控制软件的能力标志着人工智能的一个基础性飞跃,为下一个由自主计算机使用代理推动的技术进步时代奠定了基础。今天,我们激动地宣布我们在计算机使用代理领域的又一重大进步:Agent S2,我们代理框架的第二代。在取得初步成功的基础上,Agent S2 通过利用前沿的基础模型和专用模型,提供了更高的性能和模块化。Agent S2 实现了新的最先进的结果,能够很好地扩展到更多步骤,最重要的是,它是完全开放的!
Agent S2 展示了卓越的计算机和手机使用能力,在关键基准挑战中取得了显著进步。在计算机使用方面,Agent S2 在 OSWorld 的 15 步和 50 步评估(最实用的两种真实世界使用设置)中均取得了最先进的成果,证明了我们的代理框架能够采取更精确的行动,为任务生成最佳计划,同时能够自我纠正并在长期内不断改进。值得注意的是,Agent S2 在 50 步评估中达到了 34.5%的准确率,超过了之前的 SOTA(OpenAI CUA/Operator 的 32.6%),展示了代理框架如何超越单个训练模型进行扩展。在智能手机使用方面,Agent S2 在 AndroidWorld 中实现了 50%的准确率,超过了之前的 SOTA(UI-TARS 的 46.8%),展示了代理框架在不同视觉 UI 环境中的泛化能力。
在撰写这篇博客文章之后,我们在准备论文的过程中在 AndroidWorld 上取得了更好的结果。我们已更新此表以反映最新的性能。请参阅论文以获取详细信息。
人类大脑是模块化设计的杰出例子——一个由专门组件协同工作的网络。不同的区域擅长不同的任务:左半球驱动分析思维,右半球激发创造力,而运动和感官区域则负责身体协调。这种模块化结构,优化了协作,启发了我们如何设计用于计算机使用的 AI 代理。
在 Simular,我们相信最有效的 AI 代理应该遵循类似的原则——无缝协调各种模型的模块化框架,而不是依赖于单一的整体系统。我们的初始代理框架 Agent S 于 2024 年 10 月 11 日推出,体现了这一愿景。以经验增强的分层规划为核心,Agent S 在当时的模型和框架中实现了更好的整体性能。我们的最新研究进一步表明,一个设计良好的模块化框架,即使单个模型不是最优的,也能超越最好的独立模型。为什么?因为不同的模型在不同领域表现出色,每个模型都有其独特的优势和劣势。一个强大的框架优化了这些模块之间的协调,确保每个模型在其最擅长的领域发挥作用,从而实现更优越的整体效果。在基础模型快速发展的领域中,模块化是关键。我们的下一代代理框架,Agent S2,凭借其改进的模块化和灵活性,实现了显著更好的感知、规划和精细控制。
Agent S2 是通过模块化和可扩展的方法来处理复杂数字任务的。其框架强调四个关键设计原则:主动分层规划Agent S2 遵循自然任务层次结构,结合<强 id=0>用于低级执行的专业模型与<强 id=1>用于高级规划的一般化模型 。低级任务,如 UI 元素选择或文本突出显示,需要高精度和特定领域的专业知识,而高级任务则需要更广泛的适应性和战略监督。此外,Agent S2 的关键进步是其从<强 id=2>反应式到主动规划的转变 。Agent S2 不是在遇到错误后才重新规划,这需要更多步骤来回溯,并可能导致更多错误,而是在每个子任务之后动态更新其计划。这种主动方法提高了对实时变化的适应性,保持了从一项子任务到下一项子任务的连续性,并优化了未来步骤。<强 id=0>视觉定位以实现精确交互Agent S2 通过专门的视觉定位模型实现了与图形用户界面(GUI)的高精度交互。与前辈不同,前辈依赖于可访问性树进行 UI 理解,Agent S2 仅以原始截图作为输入 ,消除了对结构化可访问性数据的需要。通过将视觉理解委托给专用模型,Agent S2 可以准确定位和操作 UI 元素,如按钮、文本、图像和单元格——实现了以前受可访问性限制而受限的精细控制。智能代理-计算机接口与专家模块Agent S2 通过将复杂的低级任务,如文本突出显示,卸载到专门的专家模块来改进其代理-计算机接口(ACI)。这减少了基础模型上的认知负荷 ,使它们能够专注于高级规划和战略决策。代理记忆机制Agent S2 采用持续学习记忆机制,能够随着经验不断进化,提高效率。之前完成任务的经验被保留下来,使 Agent S2 能够回忆先前的行动,并根据历史成功和失败来优化未来的策略。这种自适应学习能力使 Agent S2 在每次应用中变得更加熟练,为长期自适应智能和个性化自动化奠定基础。这种模块化架构也使得扩展和适应变得轻而易举。由基础模型或专家模型提供动力的新模块可以轻松集成、移除或更换,使 Agent S2 能够轻松快速地适应新的任务领域。
从谷歌驱动下载图片并使用 GIMP 进行压缩
子任务 1:启动 GIMP01. 点击“活动”按钮。02. 点击“取消”按钮。03. 点击“X”按钮关闭。04. 点击“活动”按钮。05. 在搜索栏中输入“GIMP”。06. 点击 GIMP 应用程序图标。子任务2:下载图片。07. 按下 Ctrl + Alt + T。在终端中输入 wget子任务 3:在 GIMP 中打开图片09. 按 Ctrl + O 打开文件。10. 点击 GIMP 中的 文件 菜单。11. 点击主 GIMP 窗口。12. 点击 文件 菜单13. 点击 打开…14. 点击 下载 文件夹15. 点击 用户 文件夹16. 点击名为 ‘uc?exp… 的文件17. 点击 打开 按钮。子任务 4:调整图片大小18. 点击 图片 菜单19. 点击 缩放图片…20. 在宽度输入框中输入 200021. 点击 缩放 按钮。子任务 5:导出压缩图像22. 按 Alt + F, 然后 E 打开…23. 点击 导出为…24. 点击 桌面 文件夹25. 输入 压缩的 jpeg26. 点击 导出 按钮。27. 在质量字段中输入 60。28. 点击 导出 按钮完成。从 GIMP 复制图片到 LibreOffice Writer 文档,然后导出文档
子任务 1:打开 GIMP01. 打开 GIMP。子任务 2:打开 XCF 文件02. 点击 GIMP 中的 文件 菜单。03. 按 Ctrl + O 打开文件。04. 在文件菜单中点击 打开…。05. 点击 桌面 文件夹。06. 点击 打开 按钮。子任务 3:打开 LibreOffice Writer07. 打开 LibreOffice Writer.子任务 4:在 GIMP 中复制图片08. 切换到 GIMP.09. 按下 Ctrl + A 选择全部。10. 按 Ctrl + C 复制图片。子任务 5:在 Writer 中粘贴图片11. 切换到 LibreOffice Writer。12. 点击空白文档区域。13. 按下 Ctrl + V 粘贴图片。子任务 6:将文档另存为 DOCX14. 按下 Ctrl + Shift + S 打开另存为。15. 在侧边栏中点击 桌面 选项。16. 在名称字段中输入 image.docx。17. 点击文件类型下拉菜单。18. 点击 Word 2007-365 (.docx)19. 在文件类型字段中输入 Word 2007-365 (.docx)20. 点击下拉箭头21. 向上滚动文件格式列表。22. 点击列表中的 Word 2007-365 (.docx)。23. 点击 保存 按钮。24. 完成。设置网页扩展
子任务 1:点击创建按钮01. 点击 “让我们创建” 按钮子任务 2:配置扩展设置02. 在输入框中输入 “happy-extension” 并按 Enter 键。03. 在输入框中不输入任何内容并按 Enter 键。04. 在版本输入框中输入 “v0.0.1” 并按 Enter 键。05. 在格式不正确的版本输入框中输入 “0.0.1” 并按 Enter 键。06. 点击 “是” 按钮,以启用后台脚本。07. 点击 “否” 按钮,以禁用内容脚本。08. 点击 “是” 按钮,以启用浏览器功能。09. 点击 “否” 按钮,以禁用页面操作。10. 点击 “否” 按钮,以禁用扩展选项。子任务3:导航到项目目录11. 点击 项目 文件夹Subtask 4: Extract Extension Files12. Click the Downloads folder.13. Wait 2 seconds.14. Switch to Chromium.15. Click the download button in the browser’s toolbar.16. Press F5 to refresh the page.17. Switch back to Nautilus file manager.18. Press Ctrl + L to focus on the address bar.19. Type “/home/user/Downloads” and press Enter.20. Click the happy-extension.zip file in the Downloads folder.21. Press Ctrl + C to copy the file.22. Click the Projects folder.23. Click the Home button in the navigation bar.24. Double-click the Projects folder in the main window.25. Press Ctrl + V to paste the file.26. Right-click the happy-extension.zip file27. Click the “Extract Here” option.28. Done.从视频中移除字幕并导出新的视频
子任务 1:禁用字幕点击 VLC 顶部菜单栏中的《 副标题 》菜单选项。02. 从字幕下拉菜单中点击 子轨道 。03. 在子轨道子菜单中点击 禁用 以关闭字幕。子任务 2:开放编解码器信息04. 在 VLC 顶部菜单栏中点击 工具 菜单。05. 按 Ctrl + J 打开编解码器信息。06. 从工具下拉菜单中点击 编解码器信息 。07. Click the Codec tab in the Current Media Information window.Subtask 3: Access Codec Tab08. Click the Codec tab in the Current Media Information window.09.Click the Codec tab10. Press Tab three times, then Enter to navigate the tab.11. Click Cancel on the Software Updater dialog.12. Open the Tools menu in VLC.13. Press Ctrl + J again to return to Codec Information.Subtask 4: Open Media Information14. Press Ctrl + I to open the Media Information window.15. 在工具菜单中点击 媒体信息子任务 5:访问元数据标签页16. 在当前窗口顶部点击 元数据 标签页子任务 6:访问编解码器标签页17. 再次点击当前窗口中的 编解码器 标签。子任务 7:关闭媒体信息窗口18. 点击底部右边的 关闭 按钮子任务 8:打开终端19. 按 Ctrl + Alt + T 打开终端。子任务 9:使用 FFmpeg 提取字幕20. 在终端中输入命令 ffmpeg -i video.mp4 -map 0:s:0 subtitles.srt 并按 Enter。21. 完成。在 LibreOffice Calc 表格中计算利润
子任务 1:插入新列01. 点击 列标题 D02. 点击 “在之前插入列”子任务 2:添加利润列标题03. 将 单元格 D1 设置为 “利润”。子任务3:输入利润公式04. 将单元格 D2 设置为 “=B2-C2”子任务 4:将利润公式复制到所有行05. 将 填充柄 从 单元格 D2 向下拖动到 D11。06. 将 填充句柄 从 D2 的右下角拖动到 D1107. 点击 单元格 D208. 拖动 小填充手柄 到 D1109. 将 利润公式 从 D2 复制到 D11。10. 点击 单元格 D2 以确认11. 按下 Ctrl + C 复制12. 从 D2 到 D11 设置单元格值13. 完成。在 LibreOffice Writer 文档中删除线最后一段
子任务1:选择最后一段01. 每位学生都将对 “Each student will be responsible” 至 “comprises 30% of final grade” 负责。子任务 2:应用删除线格式02. 点击格式工具栏中的 删除线按钮 。03. 完成。任务:前往新联系人界面,并输入以下信息:姓名:Grace,姓氏:Taylor,电话:799-802-1530,电话标签:工作。请勿点击保存。
01. 点击底部的电话应用图标。02. 点击屏幕右下角的联系人标签。03. 在联系人列表顶部点击“创建新联系人”。04. 在“姓氏”字段中输入“Grace”。05. 在“名字”字段中输入“Taylor”。06. 点击公司字段下方的“电话”字段。在电话字段中输入“799-802-1530”。08. 点击显示“移动”的标签字段旁边的下拉指示器。09. 在下拉菜单中点击“工作”以更改电话标签。10. Mark the task as done (without clicking Save).任务:将文件 holiday_photos.jpg 从同一 sdk_gphone_x86_64 存储区域内的 Podcasts 移动到同一存储区域内的 DCIM。
01. 在屏幕中间向上滑动 向上 打开应用抽屉。02. 点击 文件应用 (第五行中的蓝色文件夹图标)。03. 点击左上角的 汉堡菜单图标 。04. 点击 sdk_gphone64_arm64 以打开主存储。05. 点击 播客文件夹 以访问其内容。06. 点击屏幕顶部的《 图片筛选器 》。07. 长按 holiday_photos.jpg 以选择它。08. 点击右上角的三个点菜单图标 。09. 从下拉菜单中点击 移动到…。10. 点击左上角的 汉堡菜单图标 。11. 点击 sdk_gphone64_arm64 以访问主存储。12. 点击 DCIM 文件夹 以将其设置为目的地。13. 点击 移动 按钮,以移动文件。14. 点击 sdk_gphone64_arm64 返回主存储。15. 点击 DCIM 文件夹 以验证文件是否已移动。16. 确认 holiday_photos.jpg 存在于 DCIM 中。17. 将任务标记为 完成 。Agent-S,Simular AI 开发的开源代理框架,通过图形用户界面(GUI)实现人机交互的自动化
Accio,阿里巴巴旗下AI智能采购代理平台 集成阿里巴巴 1688 淘宝等资源 通过AI对话实现商品设计 趋势分析 全球采购 供应商验证等一站式服务
EasyDL,百度旗下零门槛AI开发平台
Qwen2,通义千问开源超闭源!Qwen2发布即爆火
百度文心大模型官网,ai作画网站,写作,ai绘画,论文,文生图,写歌
Dify ai,LLMOps平台,提供AI 聊天机器人,代码转换器,SQL 生成器,新闻内容编写,创意脚本等
百川大模型官网,百川智能baichuan,汇聚世界知识 创作妙笔生花
百度文心智能体平台,基于文心大模型的智能体构建,低成本的开发原生应用!
飞书智能伙伴,字节跳动旗下企业办公和协作平台推出的Al办公助手
Skywork桌面版,本地化执行的桌面级AI助理,昆仑万维天工大模型推出
智谱清言AutoGLM沉思官网正版下载若口,智谱AI推出的一款自主智能体(AI Agent)