首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 制造 >> 正文

華為、特斯拉帶頭 車企卷入“大模型”軍備競賽

2023年6月16日 10:59  極客公園  作 者:周永亮

自動駕駛的進(jìn)程,因為大模型又起波瀾。

近幾年,自動駕駛近年發(fā)展迅猛,硬件預(yù)埋軟件持續(xù)迭代的風(fēng)潮下,車載算力急劇增長快速普及,但軟件端功能進(jìn)化滯后于算力。人們似乎開始接受要經(jīng)過很長時間才能發(fā)展到自動駕駛。

但 ChatGPT 的出現(xiàn)帶給自動駕駛行業(yè)很大啟示。

ChatGPT 作為大語言模型的代表,通過對海量多模態(tài)數(shù)據(jù)的大規(guī)模自監(jiān)督學(xué)習(xí),借助「預(yù)訓(xùn)練+微調(diào)」的方式,讓 AI 可以完成各種復(fù)雜自然語言任務(wù),甚至通過了圖靈測試——自動駕駛,被認(rèn)為是下一個可能實現(xiàn)突破的領(lǐng)域。

北京智源人工智能研究院院長黃鐵軍甚至預(yù)測,三年之內(nèi)可以實現(xiàn)高級別自動駕駛。

目前,在產(chǎn)業(yè)界很多公司都在「大模型上車」上進(jìn)行探索。一部分自建大模型,商湯發(fā)布的日日新大模型,毫末智行發(fā)布了自動駕駛生成式大模型 DriveGPT——雪湖·海若;另一部分公司走聯(lián)合路線,比如小鵬汽車聯(lián)合阿里的大模型建立自動駕駛智算中心、斑馬智行接入阿里大模型等。

「大模型上車」目前重點進(jìn)展:

數(shù)據(jù)標(biāo)注——特斯拉等公司,通過大模型優(yōu)化數(shù)據(jù)標(biāo)注,降低了人工標(biāo)注比例和成本;

仿真優(yōu)化——提升虛擬訓(xùn)練環(huán)境的真實性,優(yōu)化虛擬訓(xùn)練數(shù)據(jù);

優(yōu)化感知——利用大模型能力,優(yōu)化多個環(huán)節(jié)的小模型,提高感知效果;

端到端——利用生成式預(yù)訓(xùn)練大模型技術(shù),讓自動駕駛模擬類似人腦駕駛的能力。

大模型會如何影響智能駕駛?現(xiàn)在有哪些公司和團(tuán)隊,已經(jīng)開始實踐「大模型上車」了?它真的能讓無人駕駛更快到來嗎?

01.小模型 VS 大模型

智能駕駛行業(yè),經(jīng)歷了一個模型「從小到大」的過程。

目前已量產(chǎn)的智能駕駛,絕大多數(shù)采用的是模塊化架構(gòu)。簡而言之,模塊化是將智能駕駛系統(tǒng)拆分為多個典型任務(wù),并由專門的 AI 模型或模塊處理。

現(xiàn)階段的自動駕駛模型框架主要由感知、規(guī)劃決策和執(zhí)行三個部分組成。感知模塊就像是人的眼睛和耳朵,負(fù)責(zé)對外部環(huán)境進(jìn)行感知;控制模塊就像人的雙手和雙腳,負(fù)責(zé)最終的加減速、轉(zhuǎn)向等操作;而決策規(guī)劃模塊就像人的大腦,基于接收到的感知等信息進(jìn)行行為決策和軌跡生成。

在此架構(gòu)下,每個大模塊可能包含多個小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同 AI 模型,各司其職。

不過,隨著軟硬件升級與逐步深入,自動駕駛對于計算能力和海量數(shù)據(jù)處理能力的需求暴增,傳統(tǒng)各個小模型「堆疊」的方案,已經(jīng)無法滿足城市自動駕駛的需求。比如,「堆疊」造成信息失真以及算力浪費,而每個小模型的技術(shù)「天花板」也會導(dǎo)致整體解決方案受限。

舉個簡單例子,小模型就像一個小孩,他非常擅長看圖和聽故事,可以快速地找到圖片中的物品或者聽懂一段故事的意思。但是,如果這個故事太長或者太復(fù)雜,他可能就會聽不懂或者忘記了。

這個時候,大模型開始進(jìn)入業(yè)界視野。

2021 年 8 月,特斯拉的 AI 高級總監(jiān) Andrej Karpathy,在特斯拉 AI DAY 上展示了一項新技術(shù)——基于 Transformer 的 BEV(鳥瞰視角) 感知方案。相當(dāng)于車輛正上方 10-20 米有一個直升機俯視車輛與周圍環(huán)境,這是大模型技術(shù)首次應(yīng)用于自動駕駛領(lǐng)域,也是特斯拉實現(xiàn)純視覺智能駕駛方案的關(guān)鍵。

華為、百度 Apollo、蔚小理、毫末智行、商湯等一眾廠商,甚至像地平線這樣的芯片公司,也都在 BEV+Transformer 上有所布局。例如華為的 ADS 1.0,據(jù)稱已實現(xiàn)基于 Transformer 的 BEV 架構(gòu),而最新發(fā)布的 ADS 2.0 進(jìn)一步升級了 GOD 網(wǎng)絡(luò),類似于特斯拉的占用網(wǎng)絡(luò)算法。

而大模型則可以比喻成一個大人,他非常聰明,可以同時處理許多信息,包括看圖片、聽故事和聽音樂等。他可以處理很長的故事或音樂,同時處理多個任務(wù)。不過,他需要更多時間和精力學(xué)習(xí)和處理這些信息。

值得注意的是,Transformer 不等于大模型。它是模型的底座,大模型的架構(gòu)可以基于 Transformer。

02.大模型時代數(shù)據(jù)和算法

在特斯拉使用 Transformer 之后,大模型早已經(jīng)不限于智能駕駛感知領(lǐng)域。

目前,智能駕駛已從僅使用模型進(jìn)行圖像感知,使用規(guī)則算法的方式,轉(zhuǎn)變?yōu)楦兄⑷诤、預(yù)測全面使用模型。

其中,這是大模型在智能駕駛領(lǐng)域最先落地的幾個場景。

數(shù)據(jù)標(biāo)注

自動標(biāo)注是大模型最直接的應(yīng)用之一,可以大大降低數(shù)據(jù)標(biāo)注成本。海量高效的數(shù)據(jù)標(biāo)注是算法模型的基礎(chǔ)。隨著智能駕駛的發(fā)展,激光雷達(dá) 3D 點云信息和攝像頭采集的 2D 圖像信息增加,道路場景更豐富,自動駕駛的數(shù)據(jù)標(biāo)注類型和數(shù)量不斷增加。

然而,數(shù)據(jù)挖掘難度大,數(shù)據(jù)標(biāo)注成本高。所以,智能駕駛廠商通過自動標(biāo)注優(yōu)化系統(tǒng)效率。例如,特斯拉從 2018 年以來不斷發(fā)展自動標(biāo)注技術(shù),從 2D 人工標(biāo)注轉(zhuǎn)為 4D 空間自動標(biāo)注。隨著自動標(biāo)注技術(shù)的成熟,特斯拉的人工標(biāo)注團(tuán)隊規(guī)模不斷縮小。2021 年該團(tuán)隊超過 1000 人,2022 年裁員超過 200 人。

小鵬汽車和毫末智行也相繼推出自動標(biāo)注工具。據(jù)毫末智行 CEO 顧維灝表示,目前獲取車道線、交通參與者和紅綠燈信息,人工標(biāo)注成本約每張圖 5 元,而毫末 DriveGPT 的成本僅 0.5 元。

優(yōu)化仿真

除此之外,自動駕駛需要大量的數(shù)據(jù)支持,數(shù)據(jù)積累將長期內(nèi)是自動駕駛的核心競爭點。目前,數(shù)據(jù)來源主要有真實數(shù)據(jù)、虛擬仿真和影子模式。

除真實數(shù)據(jù)外,仿真場景是彌補訓(xùn)練大模型數(shù)據(jù)不足的重要方式。虛擬仿真通過 AI 生成道路場景、車輛和行人等信息,對模型進(jìn)行訓(xùn)練?捎糜趯π熊嚥杉 corner case 進(jìn)行反復(fù)模擬和訓(xùn)練,彌補現(xiàn)實場景采集信息不足的問題。

目前仿真場景主要由游戲引擎生成,基于現(xiàn)實世界數(shù)據(jù)保證仿真場景與真實場景的相似度,依靠交通要素的重新組合提高泛化能力。理論上,優(yōu)質(zhì)仿真可替代實車數(shù)據(jù)收集,降低算法搭建成本并提高迭代速率,但逼真的仿真環(huán)境構(gòu)建和許多長尾場景的復(fù)現(xiàn)難度大。

大模型有望推動仿真場景大幅提升泛化能力,幫助主機廠提升仿真場景數(shù)據(jù)的應(yīng)用比例,從而提高自動駕駛模型的迭代速度、縮短開發(fā)周期。

比如特斯拉基于虛幻 4 引擎渲染的仿真環(huán)境,測試自動駕駛系統(tǒng)在極端情況和復(fù)雜環(huán)境中的效果。毫末智行選擇與阿里和德清政府合作,將真實交通流導(dǎo)入仿真引擎,用于路口場景的調(diào)試和驗證。

優(yōu)化小模型

除了數(shù)據(jù)層面,在模塊化的算法部署模式下,感知算法和規(guī)控算法可通過大模型的加強實現(xiàn)感知精度和規(guī)控效果的提高。例如,大模型作為車端算法的「老師」,通過「蒸餾 (教授)」幫助小模型實現(xiàn)優(yōu)異的性能。所謂「蒸餾」,就像老師教學(xué)生,將大模型或多個模型集學(xué)到的知識遷移到另一個輕量級的模型上。

比如百度將文心大模型的能力與自動駕駛感知技術(shù)結(jié)合,提升車載端側(cè)模型的感知能力百度利用半監(jiān)督方法,充分利用 2D 和 3D 數(shù)據(jù)訓(xùn)練一個感知大模型。通過在多個環(huán)節(jié)對小模型進(jìn)行蒸餾,提高小模型的性能,同時通過自動標(biāo)注為小模型定制化訓(xùn)練。大模型可以增強遠(yuǎn)距離視覺 3D 感知能力、提高多模態(tài)感知模型的感知效果。

端到端一體化

端到端的感知決策一體化算法被認(rèn)為是自動駕駛算法終局,預(yù)測、規(guī)劃、決策都在這個模型里。所謂「端到端」并不是自動駕駛領(lǐng)域獨有的說法,本身是深度學(xué)習(xí)的一個概念,英文為「End-to-End(E2E)」,簡單說就是一個 AI 模型,只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果,與 ChatGPT 類似。

在智能駕駛領(lǐng)域,端到端并不是新概念,1988 年面世的 ALVINN 自動駕駛試驗車基于端到端架構(gòu),在大學(xué)校園實現(xiàn)最高 70km/h 的自主行駛。目前,許多廠商研發(fā)端到端智能駕駛技術(shù),除特斯拉外,還有英偉達(dá)和 comma.ai 等。

這一駕駛方案更接近真實人類駕駛,只需要一個人來開車,從眼睛看到雙手轉(zhuǎn)方向盤、腳踩剎車或制動板,整個過程一氣呵成,關(guān)鍵因素是人類的大腦中樞神經(jīng)系統(tǒng),端到端大模型的作用類似于人類的大腦中樞神經(jīng)系統(tǒng)。

毫末 DriveGPT 底層模型,同樣采用 GPT 這種生成式預(yù)訓(xùn)練大模型技術(shù),首先通過引入大規(guī)模駕駛數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后使用獎勵模型 (Reward Model) 與 RLHF(人類反饋強化學(xué)習(xí)) 技術(shù)對人駕數(shù)據(jù)進(jìn)行強化學(xué)習(xí),對自動駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。

端到端自動駕駛,只是實現(xiàn)自動駕駛的最理想技術(shù)方案。目前,端到端大模型還存在許多痛點,最大的痛點是可解釋性差。

03.從 PPT 到落地

然而,大模型和智能駕駛的融合并非一蹴而就。

理想汽車創(chuàng)始人、董事長兼 CEO 李想認(rèn)為,大模型和智能駕駛可以分為三個階段:

第一階段是賦能,也就是智能輔助駕駛,賦能駕駛員,讓駕駛更安全、便捷。這個階段需要進(jìn)行人機共駕的過程來訓(xùn)練大模型;

第二階段是半機器人。隨著越來越多的人使用輔助駕駛,智能駕駛會形成半機器人。它可以解決酒駕、疲勞駕駛等問題,相當(dāng)于垂直領(lǐng)域的專家,可以看作是真正免費的司機;

第三階段是 AGI(通用人工智能)。行為學(xué)習(xí)和認(rèn)知學(xué)習(xí)會二合為一,大腦和小腦同時具備,機器可以獨立獲取信息,形成自主迭代。雖然無法預(yù)測這個階段何時到來,但我們對此充滿期待。

不過,大型模型在智能駕駛領(lǐng)域面臨著眾多挑戰(zhàn):

多模態(tài)數(shù)據(jù)

主要體現(xiàn)在多模態(tài)數(shù)據(jù)、訓(xùn)練和部署等幾個方面。比如,自動駕駛所需傳感器數(shù)據(jù)包括激光雷達(dá)、毫米波雷達(dá)、超聲波雷達(dá),以及高清攝像頭、IMU、GPS 以及 V2X 等。這些數(shù)據(jù)來自不同的坐標(biāo)系,帶有不同的觸發(fā)時間戳,以及要考慮到硬件損壞等問題時;同時,需要大量的場景數(shù)據(jù),比如交通標(biāo)志線、交通流、行為模型等等。

算力+芯片難題

從部署方面看,大模型需要高規(guī)格的硬件配置,包含高性能計算能力、大容量內(nèi)存和低時延等特點。但車載設(shè)備的硬件條件相對有限,無法提供足夠的計算資源支撐大模型運行。

具體來說,大型模型需要超過 10 億級的 GPU 計算能力,例如在自然語言處理領(lǐng)域的 GPT-3 模型就需要數(shù)萬億次浮點運算(Tops)的計算能力。這要求芯片的算力至少要在萬級 Tops 以上才能夠勝任大型模型的計算任務(wù)。但是,在車載部署場景下,芯片的算力往往只有數(shù)百 Tops 左右,遠(yuǎn)遠(yuǎn)達(dá)不到大型模型的要求。

同時,大型模型需要大量的內(nèi)存來存儲模型參數(shù)和中間狀態(tài)。例如,在自然語言處理領(lǐng)域的 GPT-3 模型中,需要使用 350GB 的內(nèi)存來存儲模型參數(shù)。但是,在車載部署場景下,芯片的內(nèi)存容量通常只有幾十 GB。

時延問題

此外,大型模型的部署還需要考慮時延的問題。例如,在自動駕駛場景下,需要對海量數(shù)據(jù)進(jìn)行實時處理和分析,因此需要保證模型的推理速度和響應(yīng)時間。但是,在車載部署場景下,要求模型的推理時延要控制在 10ms 級別。

總的來說,大型模型在智能駕駛領(lǐng)域仍是一個初級探索階段,需要進(jìn)行算法優(yōu)化和硬件進(jìn)一步改進(jìn)才能真正落地應(yīng)用。但它給業(yè)界帶來的期望也很大——有望在未來讓自動駕駛成為真正的「老司機」。

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張云明:大部分國家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動 共筑信息保障堤壩
2023MWC上海世界移動通信大會
中國5G商用四周年
2023年中國國際信息通信展覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像