AI 玩手机越玩越 6，西湖大学宣布会自我退化的智能体 AppAgentX

作者: admin 分类: 娱乐发布时间: 2025-03-11 09:00

人工智能正迎来史无前例的变更，此中，年夜言语模子（LLM）的突起推进了智能体系从信息处置向自立交互迈进。以 DeepSeek 为代表的 LLM，凭仗强盛的言语懂得与推理才能，在文本创作、编程帮助、庞杂义务计划等范畴展示出出色表示。但是，LLM 的潜力远不止于文本天生，它们正在塑造一种全新的智能体状态 ——GUI 代办（GUI Agents）。这类智能体不只能懂得指令，还能像人类一样直接操纵盘算机跟手机，解脱对预设规矩或 API 的依附，带来更天然、高效的交互方法，使 AI 真正融入软件生态，成为智能操纵体系的一局部。成绩在于，现在的 LLM 代办固然具有强盛的推理才能，却在义务履行效力上存在显明瓶颈。为懂得决这个成绩，当初，西湖年夜学 AGI 试验室张驰团队推出了 AppAgentX—— 一款具有自我退化才能的 GUI 代办。它可能在一直履行义务的进程中进修并优化本身的行动形式，实现愈加高效的操纵。

AppAgentX 的中心翻新在于：主动演绎高效操纵形式：代办可能在履行义务时，检测反复性操纵形式，并主动总结成更高等其余“一键”操纵。义务履行更快，增加反复盘算：传统的 LLM 代办每次履行义务都须要从新思考操纵流程，而 AppAgentX 可能记着并复用履行战略，从而防止反复推理，使得义务履行愈加流利高效。完整基于视觉操纵，实用于种种软件：传统主动化方式平日须要拜访后端 API，而 AppAgentX 仅依附屏幕视觉信息停止操纵，无需后端拜访，因而可能在差别软件、差别装备上通用，真正做到“即插即用”。AppAgentX：让智能体学会“退化”从前，盘算机的主动化操纵重要依附 RPA（呆板人流程主动化），经由过程预设规矩或 API 停止牢固义务的履行。但是，这种方法须要大批手动设置，缺少机动性。GUI 代办的呈现，转变了这一局势，被誉为软件天下中的具身智能。GUI 代办不依附后端 API，而是像人类一样，经由过程屏幕视觉、鼠标跟键盘直接操纵软件界面。这象征着，智能体能够自立进修怎样操纵种种利用顺序，乃至可能在差别软件之间切换，履行庞杂的跨利用义务。比方：办公场景：主动收拾文档、批量发送邮件文娱与创作：应用 Photoshop 处置图像、天生视频内容主动化操纵：批量录入数据、主动处置订单跨利用义务：从网页爬守信息后填入 Excel、在多个软件之间停止联动操纵正因如斯，GUI 代办被视为智能助手、数字员工、主动化测试等范畴的下一代处理计划，但现阶段的挑衅也很凸起：现有的智能体聪慧但不敷高效。现有的 LLM 代办平日采取逐渐推理（Step-by-step Reasoning）的方法，即每次履行操纵前，模子都要推理下一步举措。比方，在停止网页搜寻时，它可能会如许决议：辨认须要搜寻的信息；点击搜寻框；输入要害词；点击搜寻按钮。这种方法付与了智能体极强的泛化才能，使其可能顺应新义务场景，但也带来了履行低效、反复盘算重大的成绩。AppAgentX 处理这一痛点的中心思绪，是让智能体学会“退化”。上面是一个 AppAgentX 履行播放音乐的一个例子表示图，当找到了“一键”操纵，就不须要每一步都消耗大批时光思考下一步须要做什么，从而疾速实现义务。

[db:TAG标签](379)

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！