大模型+機器人,詳盡的綜述報告來了,多位華人學者參與
大模型的出色能力有目共睹,而如果將它們整合進機器人,則有望讓機器人擁有一個更智能的大腦,為機器人領域帶來新的可能性,例如自動駕駛、家用機器人、工業機器人、輔助機器人、醫療機器人、現場機器人和多機器人系統。
預先訓練的大型語言模型(LLM)、大型視覺- 語言模型(VLM)、大型音訊- 語言模型(ALM)和大型視覺導航模型(VNM)可以用於更好地處理機器人領域的各種任務。將基礎模型整合進機器人是一個快速發展的領域,機器人社群最近已經開始探索將這些大模型用於需要重新書寫的是:知覺、預測、規劃和控制等機器人領域。
最近,一支由史丹佛大學、普林斯頓大學以及英偉達和Google DeepMind等多家企業組成的聯合研究團隊發布了一篇綜述報告,總結了機器人研究領域中基礎模型的發展和未來挑戰
論文網址:https://arxiv.org/pdf/2312.07843.pdf
重寫的內容是:論文庫:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
團隊成員中有很多我們熟悉的華人學者,包括朱玉可、宋舒然、吳佳俊、盧策吾等。
廣泛使用大規模資料進行預訓練的基礎模型,在微調後可以適用於各種下游任務。這些基礎模型在視覺和語言處理領域取得了重大突破,其中包括BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相關模型
在基礎模型出現之前,用於機器人的傳統深度學習模型的訓練所使用的都是為不同任務收集的有限資料集。相反,基礎模型則是會使用大範圍多樣化資料進行預先訓練,在其他領域(例如自然語言處理、電腦視覺和醫療保健)的應用證明了其適應能力、泛化能力和整體表現表現。最終,基礎模型也有望在機器人領域展現出自己的潛力。圖 1 展示了基礎模型在機器人領域的概況。
比較相比於針對特定任務的模型,從基礎模型遷移知識有可能減少訓練時間和運算資源。尤其是在機器人相關領域,多模態基礎模型可以將從不同感測器收集的多模態異質資料融合和對齊成緊湊的緊湊同質表徵,而這正是機器人理解和推理所需的。其學習到的表徵可望用於自動化技術棧的任何部分,包括需要重新書寫的是:知覺、決策和控制。
不僅如此,基礎模型還能提供零樣本學習能力,也就是讓 AI 系統有能力在沒有任何範例或針對性訓練的前提下執行任務。這能讓機器人將所學廣泛到全新的用例,並增強機器人在非結構化環境中的適應能力和靈活性。
將基礎模型整合進機器人系統能提升機器人需要重新書寫的是:知覺環境以及與環境互動的能力,有可能實現上下文需要重新書寫的是:知覺型機器人系統。
舉個例子,在需要重新書寫的是:知覺領域,大型視覺- 語言模型(VLM)能夠學習視覺和文字資料之間的關聯,從而具備跨模態理解能力,從而輔助零樣本影像分類、零樣本目標偵測和3D 分類等任務。再舉個例子,3D 世界中的語言定基(language grounding,即將VLM 的上下文理解與3D 現實世界對齊)可以透過將話語與3D 環境中的具體物件、位置或動作關聯起來,從而增強機器人的空間需要重新書寫的是:知覺能力。
在決策或規劃領域,研究發現 LLM 和 VLM 可以輔助機器人規範涉及高層規劃的任務。
透過利用與操作、導航和互動有關的語言線索,機器人可以執行更複雜的任務。例如對於模仿學習和強化學習等機器人策略學習技術,基礎模型似乎有能力提升資料效率和情境理解能力。特別是語言驅動的獎勵可透過提供經過塑造的獎勵來引導強化學習智能體。
另外,研究者也已經在利用語言模型來為策略學習技術提供回饋。一些研究表明,VLM 模型的視覺問答(VQA)能力可以用於機器人使用案例。舉個例子,已有研究者使用 VLM 來回答與視覺內容相關的問題,以幫助機器人完成任務。另外,也有研究者使用 VLM 來幫助資料標註,為視覺內容產生描述標籤。
儘管基礎模型在視覺和語言處理方面具備變革性的能力,但對於現實世界的機器人任務來說,基礎模型的泛化和微調依然頗具挑戰性。
這些挑戰包括:
1) 資料缺乏:如何取得網路規模級的資料來支援機器人操作、定位、導航等任務,並且如何利用這些資料進行自我監督訓練;
2) 巨大的差異性:如何應對物理環境、實體機器人平台和潛在的機器人任務的巨大多樣性,同時保持基礎模型所需的通用性;
3) 不確定性的量化問題:如何解決實例層面的不確定性(例如語言歧義或LLM 幻覺)、分佈層面的不確定性和分佈移位問題,尤其是閉環的機器人部署引起的分佈移位問題。
4) 安全評估:如何在部署之前、更新過程中、工作過程中對基於基礎模型的機器人系統進行嚴格測試。
5) 即時效能:如何應對某些基礎模型推理時間長的問題—— 這會有礙基礎模型在機器人上的部署,以及如何加速基礎模型的推理—— 這是在線決策所需的。
這篇綜述論文總結了目前機器人領域中基礎模型的使用。研究人員調查了目前的方法、應用和挑戰,並提出了未來研究方向來解決這些挑戰。他們還指出了將基礎模型用於實現機器人自主能力可能存在的潛在風險
基礎模型背景知識
基礎模型具有數以十億計的參數,而且使用互聯網級別的大規模資料進行預訓練。訓練如此龐大且複雜的模型需要非常高的成本。取得、處理和管理資料的成本也會很高。其訓練過程需要大量的運算資源,需要使用GPU或TPU等專用硬件,並且還需要用於模型訓練的軟體和基礎設施,這都需要資金投入。此外,基礎模型的訓練時間也很長,這也會導致高成本。因此,這些模型通常作為可插拔模組使用,即將基礎模型整合到各種應用中,而無需進行大量的客製化工作
表 1 給出了常用基礎模型的細節。
本節將聚焦在LLM、視覺Transformer、VLM、具身多模態語言模型和視覺生成模型。此外,還將介紹用於訓練基礎模型的不同訓練方法
他們首先介紹了一些相關的術語和數學知識,其中涉及token 化、生成模型、判別模型、Transformer 架構、自回歸模型、掩碼式自動編碼、對比學習和擴散模型。
然後他們介紹了大型語言模型(LLM)的範例和歷史背景。之後重點說明了視覺 Transformer、多模態視覺 - 語言模型(VLM)、具身多模態語言模型、視覺生成模型。
機器人研究
這一節關注的是機器人決策、規劃和控制。在這一領域,大型語言模型(LLM)和視覺語言模型(VLM)都有潛力用於增強機器人的能力。舉個例子,LLM 可以促進任務規範過程,讓機器人可以接收和解讀來自人類的高階指令。
VLM 也有望為這一領域做出貢獻。 VLM 擅長分析視覺資料。要讓機器人做出明智的決策和執行複雜的任務,視覺理解能力是至關重要的。現在,機器人可以使用自然語言線索來增強自己執行操作、導航和互動相關任務的能力。
基於目標的視覺 - 語言策略學習(不管是透過模仿學習還是強化學習)有望透過基礎模型獲得提升。語言模型也能為策略學習技術提供回饋。這個回饋循環有助於持續提升機器人的決策能力,因為機器人可以根據從 LLM 收到的回饋來優化自己的行動。
這一節關注的是 LLM 和 VLM 在機器人決策領域的應用。
這一節分為六個部分。其中第一部分介紹了用於決策和控制和機器人策略學習,其中包括基於語言的模仿學習和語言輔助的強化學習。
第二部分是基於目標的語言 - 圖像價值學習。
第三部分介紹了使用大型語言模型來規劃機器人任務,其中包括透過語言指令來說明任務以及使用語言模型產生任務規劃的程式碼。
第四部分是用於決策的脈絡學習(ICL)。
下一個要介紹的是機器人變形金剛
第六部分則是開放詞彙庫的機器人導航和操作。
表 2 給出了一些特定於機器人的基礎模型,其中報告了模型的大小和架構、預訓練任務、推理時間和硬體設定。
要重新書寫的是:知覺
#與周圍環境互動的機器人會接收不同模態的感官訊息,例如影像、視訊、音訊和語言。這種高維度資料對機器人在環境中的理解、推理和互動至關重要。基礎模型可以將這些高維輸入轉換成容易解讀和操作的抽象結構化表徵。尤其是多模態基礎模型可讓機器人將不同感官的輸入整合成一個統一的表徵,其中包含語意、空間、時間和可供性資訊。這些多模態模型需要跨模態的交互,通常需要對齊不同模態的元素來確保一致性和相互對應。例如圖像描述任務就需要文字和圖像資料對齊。
這一節將專注於與機器人需要重新書寫的是:知覺相關的一系列任務,這些任務可使用基礎模型來對齊模態,從而獲得提升。其中的重點是視覺和語言。
這一節分為五個部分,首先是開放詞彙庫的目標檢測和3D 分類,然後是開放詞彙庫的語義分割,接下來是開放詞彙庫的3D 場景和目標表徵,然後是學習到的功能可供性,最後是預測模型。
具身AI
近段時間,有研究顯示LLM 可以成功用於具身AI 領域,其中「具身(embodied)」通常是指在世界模擬器中的虛擬具身,而非具有實體機器人身體。
這方面已經出現了一些有趣的框架、資料集和模型。其中尤其值得一提的是將 Minecraft 遊戲用作訓練具身智能體的平台。舉個例子,Voyager 使用了 GPT-4 來引導智能體探索 Minecraft 環境。其能透過上下文 prompt 設計來與 GPT-4 互動,而無需對 GPT-4 的模型參數進行微調。
強化學習是機器人學習領域的重要研究方向,研究者們正在嘗試使用基礎模型來設計獎勵函數以優化強化學習
對於機器人執行高層規劃,研究者一直在探索使用基礎模型來輔助。此外,還有一些研究者試圖將基於思考鏈的推理和動作生成方法應用於具身智能體
#挑戰與未來方向
這一節會給出將基礎模型用於機器人的相關挑戰。該團隊也會探索可望解決這些挑戰的未來研究方向。
第一個挑戰是克服訓練用於機器人的基礎模型時的數據稀缺問題,其中包括:
1. 使用未經結構化的遊戲數據和未標記的人類視頻來拓展機器人學習
2. 使用圖像修復(Inpainting)來增強數據
3. 克服訓練3D 基礎模型時的缺少3D 數據的問題
#4. 通過高保真模擬來產生合成資料
5. 使用VLM 進行資料增強 使用VLM 進行資料增強是一種有效的方法
6. 機器人的物理技能受限於技能的分佈
第二個挑戰則與即時效能有關,其中關鍵的是基礎模型的推理時間。
第三個挑戰涉及多模態表徵的限制。
第四個挑戰則是如何量化不同層級的不確定性的問題,例如實例層面和分佈層面,另外還涉及到如何校準以及應對分佈移位的難題。
第五個挑戰涉及安全評估,包括部署之前的安全測試和運行時的監控和對分佈外情況的檢測。
第六個挑戰則涉及如何選擇:使用現有的基礎模型還是為機器人建立新的基礎模型?
第七個挑戰涉及到機器人設定中的高度可變性。
第八個挑戰是如何在機器人設定中進行基準評估以及保證可複現性。
更多研究細節,可參考原論文。
以上是大模型+機器人,詳盡的綜述報告來了,多位華人學者參與的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

目前為止,AI穿戴裝置賽道還沒有任何一個產品取得特別好的成績。今年年初在MWC24橫空出世的AIPin,評樣機一經寄出,發佈時被狂吹的「AI神話」也開始破滅,短短幾個月就經歷了大規模退貨;同樣開局賣爆的RabbitR1則相對好些,但也在大批交付時受到了類似「Android套殼」的不利評價。現在,又有一家公司進入了AI穿戴裝置賽道。科技媒體TheVerge昨天發布博文,表示AI新創公司Plaud推出了一款名為NotePin產品。有別於仍在「畫餅」階段的AIFriend,NotePin目前已開始

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au
