大模型+机器人，详尽的综述报告来了，多位华人学者参与-人工智能-PHP中文网

首页

科技周边

人工智能

大模型+机器人，详尽的综述报告来了，多位华人学者参与

PHPz

Jan 12, 2024 am 08:33 AM

机器人大模型产业

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型（LLM）、大型视觉 - 语言模型（VLM）、大型音频 - 语言模型（ALM）和大型视觉导航模型（VNM）可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域，机器人社区最近已经开始探索将这些大模型用于需要重新书写的是：知觉、预测、规划和控制等机器人领域。

最近，一支由斯坦福大学、普林斯顿大学以及英伟达和Google DeepMind等多家企业组成的联合研究团队发布了一篇综述报告，总结了机器人研究领域中基础模型的发展情况和未来挑战

大模型+机器人，详尽的综述报告来了，多位华人学者参与

论文地址：https://arxiv.org/pdf/2312.07843.pdf
重写的内容是：论文库：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者，包括朱玉可、宋舒然、吴佳俊、卢策吾等。

广泛使用大规模数据进行预训练的基础模型，在微调后可以适用于各种下游任务。这些基础模型在视觉和语言处理领域取得了重大突破，其中包括 BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相关模型

在基础模型出现之前，用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反，基础模型则是会使用大范围多样化数据进行预训练，在其他领域（比如自然语言处理、计算机视觉和医疗保健）的应用证明了其适应能力、泛化能力和总体性能表现。最终，基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

相比于针对特定任务的模型，从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域，多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征，而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分，包括需要重新书写的是：知觉、决策和控制。

不仅如此，基础模型还能提供零样本学习能力，也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例，增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人需要重新书写的是：知觉环境以及与环境交互的能力，有可能实现上下文需要重新书写的是：知觉型机器人系统。

举个例子，在需要重新书写的是：知觉领域，大型视觉 - 语言模型（VLM）能够学习视觉和文本数据之间的关联，从而具备跨模态理解能力，从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子，3D 世界中的语言定基（language grounding，即将 VLM 的上下文理解与 3D 现实世界对齐）可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来，从而增强机器人的空间需要重新书写的是：知觉能力。

在决策或规划领域，研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索，机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术，基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外，研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明，VLM 模型的视觉问答（VQA）能力可以用于机器人用例。举个例子，已有研究者使用 VLM 来回答与视觉内容有关的问题，从而帮助机器人完成任务。另外，也有研究者使用 VLM 来帮助数据标注，为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力，但对于现实世界的机器人任务来说，基础模型的泛化和微调依然颇具挑战性。

这些挑战包括：

1) 数据缺乏：如何获取互联网规模级的数据来支持机器人操作、定位、导航等任务，并且如何利用这些数据进行自我监督训练；

2) 巨大的差异性：如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性，同时保持基础模型所需的通用性；

3) 不确定性的量化问题：如何解决实例层面的不确定性（比如语言歧义或 LLM 幻觉）、分布层面的不确定性和分布移位问题，尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估：如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能：如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署，以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了目前机器人领域中基础模型的使用情况。研究人员调查了当前的方法、应用和挑战，并提出了未来研究方向来解决这些挑战。他们还指出了将基础模型用于实现机器人自主能力可能存在的潜在风险

基础模型背景知识

基础模型具有数以十亿计的参数，而且使用互联网级别的大规模数据进行预训练。训练如此庞大和复杂的模型需要非常高昂的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量的计算资源，需要使用GPU或TPU等专用硬件，并且还需要用于模型训练的软件和基础设施，这都需要资金投入。此外，基础模型的训练时间也很长，这也会导致高成本。因此，这些模型通常作为可插拔模块使用，即将基础模型整合到各种应用中，而无需进行大量的定制工作

表 1 给出了常用基础模型的细节。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

本节将重点介绍LLM、视觉Transformer、VLM、具身多模态语言模型和视觉生成模型。此外，还将介绍用于训练基础模型的不同训练方法

他们首先介绍了一些相关的术语和数学知识，其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型（LLM）的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型（VLM）、具身多模态语言模型、视觉生成模型。

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域，大型语言模型（LLM）和视觉语言模型（VLM）都有潜力用于增强机器人的能力。举个例子，LLM 可以促进任务规范过程，让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务，视觉理解能力是至关重要的。现在，机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习（不管是通过模仿学习还是强化学习）有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力，因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习，其中包括基于语言的模仿学习和语言辅助的强化学习。

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型来规划机器人任务，其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习（ICL）。

下一个要介绍的是机器人变形金刚

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型，其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

需要重新书写的是：知觉

与周围环境交互的机器人会接收不同模态的感官信息，比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征，其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互，通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人需要重新书写的是：知觉相关的一系列任务，这些任务可使用基础模型来对齐模态，从而获得提升。其中的重点是视觉和语言。

这一节分为五部分，首先是开放词汇库的目标检测和 3D 分类，然后是开放词汇库的语义分割，接下来是开放词汇库的 3D 场景和目标表征，再然后是学习到的功能可供性，最后是预测模型。

具身 AI

近段时间，有研究表明 LLM 可以成功用于具身 AI 领域，其中「具身（embodied）」通常是指在世界模拟器中的虚拟具身，而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子，Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动，而无需对 GPT-4 的模型参数进行微调。

强化学习是机器人学习领域的一个重要研究方向，研究者们正在尝试使用基础模型来设计奖励函数以优化强化学习

对于机器人执行高层规划，研究者们一直在探索使用基础模型来辅助。此外，还有一些研究者试图将基于思维链的推理和动作生成方法应用于具身智能体

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题，其中包括：

1. 使用未经结构化的游戏数据和未标记的人类视频来拓展机器人学习

2. 使用图像修复（Inpainting）来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强使用 VLM 进行数据增强是一种有效的方法

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关，其中关键的是基础模型的推理时间。

第三个挑战涉及到多模态表征的局限性。

第四个挑战则是如何量化不同层级的不确定性的问题，比如实例层面和分布层面，另外还涉及到如何校准以及应对分布移位的难题。

第五个挑战涉及到安全评估，包括部署之前的安全测试和运行时的监控和对分布外情况的检测。

第六个挑战则涉及到如何选择：使用现有的基础模型还是为机器人构建新的基础模型？

第七个挑战涉及到机器人设置中的高度可变性。

第八个挑战是如何在机器人设置中进行基准评估以及保证可复现性。

更多研究细节，可参考原论文。

以上是大模型+机器人，详尽的综述报告来了，多位华人学者参与的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1656

CakePHP 教程

1415

Laravel 教程

1309

PHP教程

1257

C# 教程

1229

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

AI硬件再添一员！不图取代手机，NotePin反而能活更久？ Sep 02, 2024 pm 01:40 PM

目前为止，AI可穿戴设备赛道还没有任何一个产品取得特别好的成绩。今年年初在MWC24横空出世的AIPin，评测样机一经寄出，发布时被狂吹的“AI神话”也开始破灭，短短几个月就经历了大规模退货；同样开局卖爆的RabbitR1则相对好些，但也在大批交付时受到了类似“Android套壳”的不利评价。现在，又有一家公司进入了AI可穿戴设备赛道。科技媒体TheVerge昨日发布博文，称AI初创公司Plaud推出了一款名为NotePin产品。不同于仍在“画饼”阶段的AIFriend，NotePin目前已开始

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

大模型+机器人，详尽的综述报告来了，多位华人学者参与

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题