NeurIPS|哈工深新式智能体Optimus-1,横扫Minecraft长序列任务
AIxiv专栏是机器之心发布学术、本事实质的栏目。昔日数年,机器之心AIxiv专栏经受报谈了2000多篇实质,遮掩众人各大高校与企业的顶级实验室,灵验促进了学术相易与传播。要是您有优秀的职责想要共享,迎接投稿或者关连报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本篇论文的职责已被 NeurlPS(Conference on Neural Information Processing Systems)2024 会议经受。本文主要作家来自哈尔滨工业大学 (深圳) 聂礼强,邵睿团队,和谐单元为鹏城实验室。其中,第一作家李在京就读于哈尔滨工业大学 (深圳) 琢磨机学院,盘考标的为灵通全国智能体和多模态学习。 在 Minecraft 中构造一个能完成多样长序列任务的智能体,颇有挑战性。现存的职责应用妄言语模子 / 多模态大模子生成行为蓄意,以升迁智能体本质长序列任务的才气。但是,由于这些智能体穷乏敷裕的学问和教训,濒临 Minecraft 中复杂的环境仍显过劲不从心。为此,本文提议了一个新颖的智能体框架 ——Optimus-1,该框架勾通结构化学问与多模态教训,旨在赋能智能体更好地本质长序列任务。 论文题目:Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks论文聚合:https://arxiv.org/abs/2408.03615口头主页:https://cybertronagent.github.io/Optimus-1.github.io/代码仓库:https://github.com/JiuTian-VL/Optimus-1 现存的 Minecraft Agents 有哪些局限性? 1. 对结构化学问穷乏探索。Minecraft 中充满了丰富的结构化学问,举例器具的合陈规章(一根木棍和两块铁锭不错合成一把铁剑),以及不同层级的科技树(木柴 → 石器 → 铁器 → 金器 → 钻石)等。这些学问有助于智能体作念出合理的蓄意,一步一步得到完成任务所需的材料和器具。但是,现存的智能体穷乏必要的学问,导致他们作念出长序列蓄意的才气受限。 2. 穷乏充足的多模态教训。过往的教训对匡助东谈主类完成未尝碰见的任务具有进攻作用,相似,智能体也能借助历史教训在濒临新任务时作出愈加精确的判断与方案。但是,现存的智能体在多模态教训的积蓄与记忆上存在颓势,未能灵验整合视觉、话语、动作等多方面的教训,罢了了其在复杂任务中的方案才气和适合性。 为了处治上述挑战,咱们遐想了一个羼杂多模态操心模块,将结构化学问和多模态教训整合到智能体的操心机制中。访佛于学问与教训在带领东谈主类完成复杂任务中的进攻作用,智能体在蓄意阶段借助结构化学问生成可行的任务蓄意,而在反想阶段则应用多模态教训对现时景色进行判断,并作念出愈加合理的方案。在此基础上,咱们提议了智能体框架 Optimus-1。在羼杂多模态操心的赋能下,Optimus-1 在 67 个长序列任务上兑现了现时最先进的性能,并放松了与东谈主类水平基线的差距。 盘考身手 Optimus-1 的框架如下图所示。它由羼杂多模态操心模块,学问领导的蓄意器,教训驱动的反想器,以及行为戒指器构成。给定一个长序列任务,学问领导的蓄意器领先从羼杂多模态操心中检索任务有关的学问,并基于这些学问生成一系列可本质的子蓄意。这些子蓄意纪律输入到行为戒指器中,生成行为信号以完成任务。在本质任务过程中,教训驱动反想器会按期激活,检索与现时子蓄意有关的多模态教训算作参考,以此判断智能体现时景色,从而作念出更为合理的方案。 图 1:Optimus-1 的举座框架 1. 羼杂多模态操心(Hybrid Multimodal Memory) 图 2:摘录化多模态教训池和档次化有向学问图的构建经过 如上图所示,羼杂多模态操心由摘录化多模态教训池(AMEP)和档次化有向学问图(HDKG)构成。关于 AMEP,视频流领先通过 Video Buffer 和 Image Buffer 过滤,得到固定窗口大小的帧序列,并与文本通过 MineCLIP 琢磨相似度,若跨越阈值,则保存帧序列、文本及环境信息等实质算作多模态教训。这些教训为智能体反想阶段提供细粒度的多模态信息,同期通过摘录化缩短了存储支拨。 关于 HDKG,任务本质过程中得到的学问被调度为图结构。举例,“两根木棍和三块木板不错合成一把木镐” 被暗示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe},为智能体的蓄意阶段提供必要的学问维持,匡助其作念出合理的任务蓄意。 2. 学问领导的蓄意器(Knowledge-Guided Planner) 实验效用 本文在灵通全国环境 Minecraft 中中式了 67 个长序列任务进行评估,涵盖木柴,石器 ,铁器,金器,钻石,红石,装备七个任务组。每次本质任务,智能体齐飞速在职意环境中,运行装备为空,这显贵加多了任务的挑战性。此外,本文还构建了一个东谈主类水平的基线,以评估现存的智能体与东谈主类水平之间的差距。 表 1:Optimus-1 在 7 个任务组上的平均到手率 实验效用如上表所示,Optimus-1 在扫数任务组的到手率齐显贵高于先前的身手。普通的消融实验也施展注解了学问和教训对智能体本质长序列任务的进攻性。 表 2:消融实验效用。其中,P,R,K,E 永别代表蓄意,反想,学问,以及教训。 值得介怀的是,本文还探索了将任务失败的 case 应用于 in-context learning 所带来的影响。实验效用显现,将到手和失败的 case 齐纳入智能体的反想阶段,约略显贵升迁任务的到手率。 表 3:对多模态教训的消融实验效用。其中,zero,suc,Fai 永别代表 zero-shot,仅使用到手 case,以及仅使用失败 case。 通用性 固然基于 GPT-4V 构建的 Optimus-1 性能超卓,但调用商用大模子的老本拆开淡漠。因此,本文进行了更普通的实验,探索一个进攻问题:使用现存的开源多模态大模子构建 Optimus-1,性能阐明怎样? 图 3:不同多模态大模子算作 backbone 的性能对比 如上图所示,在莫得羼杂多模态操心模块的情况下,多样多模态大模子在长序列任务上的阐明较差,尤其是在具有挑战性的钻石任务组中,到手率接近 0。而在羼杂多模态操心模块赋能下,开源多模态大模子也和 GPT-4V 有了可比的性能。这揭示了羼杂多模态操心模块的通用性。 论断 在本文中,咱们提议了羼杂多模态操心模块,由 HDKG 和 AMEP 构成。HDKG 为智能体的蓄意阶段提供必要的全国学问,而 AMEP 则为反想阶段提供致密的历史教训。在此基础上,咱们在 Minecraft 中构建了智能体 Optimus-1。普通的实验效用标明,Optimus-1 在长序列任务中的阐明荒芜了现存的智能体。此外,咱们还考证了羼杂多模态操心模块的通用性,开源多模态大模子在其赋能下,与 GPT-4V 也有可比的性能。 |