來聊聊近期火爆的幾個大模型和自動駕駛概念
近期大模型各種應用依然火爆,10月初前後出現了一系列頗有噱頭的文章,試圖把大模型應用於自動駕駛。和許多朋友最近也聊了很多相關的話題,寫這篇文章,一方面是發現其實包括我在內,在過去其實都混淆了一些很相關但其實不同的概念,另一方面從這些概念延伸出來有一些有趣的思考,值得和大家一起分享和探討。
大(語言)模型
這無疑是目前最火爆的一個方向,也是論文最集中的熱點。那大語言模型究竟能怎麼幫助到自動駕駛?一方面是像GPT-4V一樣,透過和影像的對齊,提供極其強大的語意理解能力,這裡暫時按下不表;另一方面便是把LLM當作agent去直接實現駕駛行為。後者其實也是目前最為sexy的研究方向,和embodied AI這一系列工作有著千絲萬縷的關係。
目前看到的絕大部分後一類工作都是將LLM:1) 直接使用 2) 透過supervised learning的方式微調 3) 透過reinforcement learning的方式微調 用於駕駛任務。本質上並沒有逃脫出先前基於learning方法去駕駛的範式框架。那其實很直接的一個問題就是,為什麼用LLM來做這件事可能會更好?直覺上來說用語言去開車是一件很低效而囉嗦的事情。後來有一天突然想明白了LLM其實透過語言實現了一個對agent的pretrain! 之前RL很難有泛化性很重要的一個原因是難以統一起來各種不同的任務,去用各種通用的資料去pretrain,只能是每種任務from scratch訓練,但LLM很好解決了這樣的問題。但其實也有幾個沒有很好解決的問題:1) 完成pretrain之後,一定要保留語言作為輸出的介面嗎?這其實在許多任務中帶來了許多的不便,也一定程度上造成了冗餘的計算量。 2) LLM as agent的做法上仍然沒有克服現有RL類model free方法的本質問題,所有model free有的問題這樣的方法仍然存在。最近也看到一些model based LLM as agent的嘗試,這可能會是個有趣的方向。
最後想吐槽的一句各篇paper的是:並不是接上LLM,讓LLM輸出一個reason就能讓你的模型變得可解釋。這個reason仍然是可能胡說八道的。 。 。原先不會有保障的東西,並不會因為輸出一句話就變得有保障了。
大(視覺)模型
純粹的大視覺模型其實目前仍然沒有看到那神奇的「湧現」時刻。談到大視覺模型,一般有兩個可能的所指:一個是基於CLIP或DINO或SAM這樣海量的web data預訓練實現的超強視覺資訊特徵提取器,這大大提升了模型的語義理解能力;另一個是指以GAIA為代表的world model實現的對(image, action,etc...)的聯合模型。
前者其實我認為只是沿著傳統的思路繼續linear scale up的結果,目前很難看到對自動駕駛量變的可能性。後者其實在今年Wayve和Tesla的不斷宣傳之下,不斷走入了研究者的視野。大家在聊world model的時候,往往夾雜著這個模型是端對端(直接輸出action)且和LLM是相關聯的。其實這樣的假設是片面的。對於world model的我的理解也是非常有限,這裡推薦一下Lecun的訪談和@俞揚老師的這篇model based RL的survey,就不展開了:
俞揚:關於環境模型(world model)的學習
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069
#純視覺自動駕駛
這其實很容易理解,是指僅依賴視覺感測器的自動駕駛系統。這其實也是自動駕駛最美好的終極願望:像人一樣靠一雙眼睛開車。這樣的概念一般都會和上述兩個大模型連結起來,因為圖像複雜的語意需要很強的抽象能力來提取有用的資訊。在Tesla最近不斷的宣傳攻勢下,這個概念也和下面要提到的端對端重疊。但其實純視覺駕駛有很多種實現的路徑,端到端自然是其中的一條,但也不是僅有的一條。要實現純視覺自動駕駛最困難的問題就是視覺天生對於3D資訊的不敏感,大模型也並未本質上改變這一點。具體體現在:1) 被動接收電磁波的方式使得視覺不像其他感測器可以測量3D空間中的幾何資訊;2) 透視使得遠處的物體對於誤差的敏感程度極高。這對於下游預設在一個等誤差的3D空間中實現的planning和control來說非常不友善。但是,人靠視覺開車等於人能準確估計3D距離和速度嗎?我覺得這才是純視覺自動駕駛除了語意理解之外,值得深入研究的representation的問題。
端對端自動駕駛
這個概念是指從感測器到最終輸出的控制訊號(其實我認為也可以廣義地包含到更上游一層planning的路點資訊)使用一個聯合優化的模型。這既可以是像早在80年代的ALVINN一樣輸入感測器數據,直接透過一個神經網路輸出控制訊號的直接端對端方法,也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個共同要點都是透過下游的監督訊號能夠直接傳遞給到上游,而不是每個模組只有自己自定的最佳化目標。整體來說這是正確的一個思路,畢竟深度學習就是靠著這樣的聯合優化發家的。但是對於自動駕駛或通用機器人這種往往複雜程度極高,且和物理世界打交道的系統來說,工程實現和數據組織和利用效率上都存在著許多需要克服的難題。
Feed-Forward端對端自動駕駛
這個概念好像很少有人提到,但其實我發現端到端本身的存在是有價值的,但是問題在於對於觀測這種Feed-Forward的使用方式。包括我在內,其實之前也會預設端對端駕駛一定是Feed-Forward形式的,因為目前99%基於深度學習的方法都假設了這樣的結構,也就是說最終關心的輸出量(例如控制訊號)u = f(x),x是感測器的各種觀測。這裡f可以是一個很複雜的函數。但其實,我們在某些問題裡,我們希望能夠使得最終的輸出量滿足或接近某些性質,這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x)
隨著大模型的發展,這個直接式的Feed-Forward端對端自動駕駛的方案又迎來了一波復興。大模型當然是非常強大的,但是我拋出一個問題希望大家來想想:如果大模型端到端是萬能的,那是不是意味著大模型就應該可以端到端下圍棋/五子棋呢?類似AlphaGo的典範就應該已經毫無意義了? 相信大家也都知道這個答案是否定的。當然這種Feed-Forward的方式可以作為一個快速的近似求解器,在大部分場景下取得不錯的結果。
以目前公開了自己使用了Neural Planner的各家方案來看,neural的部分只是為後續的優化方案提供了若干初始化的proposal去緩解後續優化高度非凸的問題。這本質上和AlphaGo裡的fast rollout做的事情是一模一樣的。但是AlphaGo不會把後續的MCTS搜尋叫做一個「兜底」方案。 。 。
最後,希望這些能夠幫助大家理清這些概念之間的區別與聯繫,大家在討論問題的時候也能夠明確在說的究竟是什麼東西。 。 。
原文連結:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A
以上是來聊聊近期火爆的幾個大模型和自動駕駛概念的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR
