AI 玩手机越玩越 6,西湖大学宣布会自我退化的智能体 AppAgentX

作者: admin 分类: 娱乐 发布时间: 2025-03-11 09:00
人工智能正迎来史无前例的变更,此中,年夜言语模子(LLM)的突起推进了智能体系从信息处置向自立交互迈进。以 DeepSeek 为代表的 LLM,凭仗强盛的言语懂得与推理才能,在文本创作、编程帮助、庞杂义务计划等范畴展示出出色表示。但是,LLM 的潜力远不止于文本天生,它们正在塑造一种全新的智能体状态 ——GUI 代办(GUI Agents)。这类智能体不只能懂得指令,还能像人类一样直接操纵盘算机跟手机,解脱对预设规矩或 API 的依附,带来更天然、高效的交互方法,使 AI 真正融入软件生态,成为智能操纵体系的一局部。成绩在于,现在的 LLM 代办固然具有强盛的推理才能,却在义务履行效力上存在显明瓶颈。为懂得决这个成绩,当初,西湖年夜学 AGI 试验室张驰团队推出了 AppAgentX—— 一款具有自我退化才能的 GUI 代办。它可能在一直履行义务的进程中进修并优化本身的行动形式,实现愈加高效的操纵。AppAgentX 的中心翻新在于:主动演绎高效操纵形式:代办可能在履行义务时,检测反复性操纵形式,并主动总结成更高等其余“一键”操纵。义务履行更快,增加反复盘算:传统的 LLM 代办每次履行义务都须要从新思考操纵流程,而 AppAgentX 可能记着并复用履行战略,从而防止反复推理,使得义务履行愈加流利高效。完整基于视觉操纵,实用于种种软件:传统主动化方式平日须要拜访后端 API,而 AppAgentX 仅依附屏幕视觉信息停止操纵,无需后端拜访,因而可能在差别软件、差别装备上通用,真正做到“即插即用”。AppAgentX:让智能体学会“退化”从前,盘算机的主动化操纵重要依附 RPA(呆板人流程主动化),经由过程预设规矩或 API 停止牢固义务的履行。但是,这种方法须要大批手动设置,缺少机动性。GUI 代办的呈现,转变了这一局势,被誉为软件天下中的具身智能。GUI 代办不依附后端 API,而是像人类一样,经由过程屏幕视觉、鼠标跟键盘直接操纵软件界面。这象征着,智能体能够自立进修怎样操纵种种利用顺序,乃至可能在差别软件之间切换,履行庞杂的跨利用义务。比方:办公场景:主动收拾文档、批量发送邮件文娱与创作:应用 Photoshop 处置图像、天生视频内容主动化操纵:批量录入数据、主动处置订单跨利用义务:从网页爬守信息后填入 Excel、在多个软件之间停止联动操纵正因如斯,GUI 代办被视为智能助手、数字员工、主动化测试等范畴的下一代处理计划,但现阶段的挑衅也很凸起:现有的智能体聪慧但不敷高效。现有的 LLM 代办平日采取逐渐推理(Step-by-step Reasoning)的方法,即每次履行操纵前,模子都要推理下一步举措。比方,在停止网页搜寻时,它可能会如许决议:辨认须要搜寻的信息;点击搜寻框;输入要害词;点击搜寻按钮。这种方法付与了智能体极强的泛化才能,使其可能顺应新义务场景,但也带来了履行低效、反复盘算重大的成绩。AppAgentX 处理这一痛点的中心思绪,是让智能体学会“退化”。上面是一个 AppAgentX 履行播放音乐的一个例子表示图,当找到了“一键”操纵,就不须要每一步都消耗大批时光思考下一步须要做什么,从而疾速实现义务。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!