百度智駕,勝在AI
“百度智駕的優(yōu)勢還是在AI,包括算法、數(shù)據(jù)和人才,以及大模型時代我們對AI原生思維,對大模型算法的理解,還有我們儲備的AI算力。”
3月17日,正在北京參加中國電動汽車百人會論壇(2024)的百度智能駕駛事業(yè)群組(IDG)首席研發(fā)架構(gòu)師 IDG技術(shù)委員會主席王亮接受了太平洋汽車等多家媒體的采訪。當被問及相比于華為、大疆等頭部智駕玩家的優(yōu)勢時,他如此說道。
一天前,百度集團副總裁、智能駕駛事業(yè)群組總裁王云鵬也在百人會高層論壇上表示,華為智駕確實遙遙領(lǐng)先,只比百度差一點點了,做成這樣相當不容易。
外界不禁好奇,百度的智駕實力究竟怎樣?AI又將如何賦能百度智駕?智駕的未來是端到端嗎?
不少人調(diào)侃說,百度自動駕駛“起個大早,趕個晚集”。但在王云鵬看來,前半句話沒有錯,百度投入自動駕駛起步最早,2014年就開始做了。但是后半句不對,因為自動駕駛剛剛見到曙光,真正的大集還沒有開始。電動化趨勢已定,智能化才剛剛開場。
王亮也深有同感。他說今天的智能駕駛的發(fā)展、普及還處在早期,消費者對于智駕的理解還比較淺,智駕功能距離成為消費者購車的頭部考慮因素還欠些火候。他認為智駕的終局要以用戶是不是能形成依賴、是不是能長期使用為標準。第一要支持城市點到點的駕駛;第二要全國都能跑,不能是幾個樣板間;第三,使用起來廣度擴起來之后,體驗安心感要比較一致,讓用戶有信賴感;第四要具備一個自身的數(shù)據(jù)飛輪和自演化能力。
“今天同時滿足四個必要條件的智駕產(chǎn)品,嚴格意義上市場上還沒有,各家都在努力的卷功能、卷體驗。”王亮介紹說,去年百度智駕產(chǎn)品實現(xiàn)了技術(shù)能力和產(chǎn)品體驗的雙重突破,基于BEV+Transformer的技術(shù),在極越01上量產(chǎn)了國內(nèi)唯一的純視覺城市領(lǐng)航輔助駕駛產(chǎn)品。今年一季度最新版本已經(jīng)率先落地了純視覺占據(jù)網(wǎng)絡(luò)技術(shù),安全性和用戶體驗比市面上絕大多數(shù)搭載了激光雷達的產(chǎn)品還要好。
之所以敢這么說,王亮表示這得益于AI的賦能。百度智駕系統(tǒng)的AI占比非常高、模型可以高頻的迭代,過去一年中系統(tǒng)的核心關(guān)鍵模型累計迭代多達300多次,在客戶SOP后的四個多月中,百度OTA給用戶的智駕新增功能和體驗優(yōu)化項多達90多個。
另據(jù)官方信息顯示,截至今年第一季度,百度城市智駕已經(jīng)開了4個城市。像上海、北京、深圳、杭州的用戶已經(jīng)可以全量去使用。另外值得期待的是,到今年6月底,百度會做一個輕圖的開城,直接把開城數(shù)量提升至300個。凡是百度地圖導(dǎo)航能到的地方,百度的城市智駕都可以覆蓋。
2023年是城市智駕元年,百度、華為和小鵬站在了第一梯隊。但與華為和小鵬不同,百度智駕走的是純視覺路線。王亮認為,強大的視覺技術(shù)是智駕產(chǎn)品能夠?qū)崿F(xiàn)體驗跨溝的充分必要條件,視覺能力的高低決定了產(chǎn)品能否走到競爭的終局。
“今天的智駕產(chǎn)品研發(fā)過程和交付絕對不是一錘子買賣,上市僅是起點。”王亮強調(diào),如何在后續(xù)用戶的使用過程中通過反饋驅(qū)動產(chǎn)品力持續(xù)提升是技術(shù)路線選擇的關(guān)鍵考慮因素,其中比初速度重要的因素是加速度這個跟時間相關(guān)的變量。
“初速度決定了產(chǎn)品原型的研發(fā)速度,這點上激光雷達確實占優(yōu),厘米級精度的三維測距能力能讓感知算法實現(xiàn)的難度大幅降低,工程師很快就能上手完成自動駕駛的閉環(huán)。”王亮坦言,相比來說,視覺的初速度就慢得多,從二維象素恢復(fù)三維信息是計算機視覺領(lǐng)域十幾年、幾十年幾代科研人員在力圖解決的難題。但一旦技術(shù)進入軌道,圖像里天然蘊含的信息量優(yōu)勢會在其在迭代加速度上比所有主動光傳感器都敏捷、都迅猛。同時,配合大模型、AI算法,視覺能達到的能力天花板也更高。
“在大模型時代指導(dǎo)AI研發(fā)的一條規(guī)律就是OpenAI在2020年提出的Scaling Laws概念,中文可以分成規(guī)模法則。隨著數(shù)據(jù)大小、模型大小和用于訓(xùn)練的計算點數(shù)的增加,模型的性能就會提高,為了獲得最佳性能,所有三個因素必須同時放大。”王亮稱,目前搭載百度智駕方案的極越上使用的普通800萬象素攝像頭。攝像頭的采樣密度是今天主流激光雷達的160倍,等接下來最好的激光雷達上市之后,攝像頭的密度仍然是它的20倍。
“依靠激光雷達肯定是走不到智駕終局的。”王亮強調(diào),一圖勝千言。激光雷達蘊含的信息量,相比圖像(視覺)來說少得非常多,少好幾個量級。它的優(yōu)勢在于可以很快上車。
基于上述原因,王亮認可激光雷達是拐杖的說法。“做視覺研發(fā),工程師也有惰性,如果同時有激光雷達也有視覺,遇到困難、又在時間很緊迫、老板要求你解決問題的情況下,大部分人還是從激光雷達上想辦法。好比一個很大的樹下,下面小草能長大,大樹把陽光遮蔽了,生長很緩慢”。
過去的一年,以文心一言、ChatGPT為代表的大語言模型所呈現(xiàn)的智慧涌現(xiàn)能力,讓人們看到了實現(xiàn)通用人工智能的曙光和路徑,也加速了大模型上車。
王亮表示,相比于華為和大疆,百度最大的優(yōu)勢就在于AI。“傳統(tǒng)的模型迭代范式,每個模型由主干網(wǎng)絡(luò)backbone和任務(wù)頭head構(gòu)成,backbone主要負責提取圖像的特征。backbone在模型層面決定了模型的泛化能力和它的識別能力。”
但過去幾年,算法從規(guī)則過渡到機器學(xué)習(xí)、數(shù)據(jù)驅(qū)動、車端模型的數(shù)量快速增長,在有限算力的資源下任務(wù)和模型增加帶來很多顯性問題。王亮距離說,一是backbone這個核心主干網(wǎng)絡(luò)的參數(shù)量漲不起來、算力競爭讓各個單一模型的參數(shù)量都受到限制。二是計算存在冗余,多任務(wù)之間的主干往網(wǎng)絡(luò)他們在特征提取的步驟中有大量的計算是冗余的,每個都在做,對算力是一種侵蝕。最后,多學(xué)習(xí)任務(wù)之間是隔離的,難以學(xué)習(xí)圖像的通用表征,各任務(wù)需要長期補充大規(guī)模人工標注的數(shù)據(jù),來彌補模型泛化能力的不足。
基于此,百度決心改變云端和車端的感知架構(gòu)。用一個多任務(wù)共享的統(tǒng)一基礎(chǔ)感知模型代替原來模型的主干網(wǎng)絡(luò),在預(yù)訓(xùn)練階段使用多元的圖像數(shù)據(jù),訓(xùn)練基礎(chǔ)大主干網(wǎng)絡(luò),來學(xué)習(xí)圖像的通用表征。而且這里的數(shù)據(jù)不再局限于自動駕駛場景下的數(shù)據(jù),也包括物聯(lián)網(wǎng)的數(shù)據(jù),包括疊加公開數(shù)據(jù)集的圖像數(shù)據(jù)。王亮透露,這個模型的參數(shù)規(guī)??梢宰龅皆瓉韇ackbone的數(shù)十倍甚至百倍。
王亮告訴太平洋汽車,支撐百度自動駕駛大模型發(fā)展的背后是百度在自動駕駛領(lǐng)域持續(xù)高強度的研發(fā)投入。規(guī)模法則里面很重要的一條是算力,多大算力決定你的模型能走多遠。在當前的訓(xùn)練算力方面,百度在智駕這個項目上投入的總算力資源達到了2.2eflops的量級,現(xiàn)在對算力的使用是上不封頂?shù)摹?/p>
當被問及百度在端到端技術(shù)方面的看法和規(guī)劃時,王亮表示,特斯拉也不是一蹴而就的。他之前在BEV Transformer把視覺感知能力迭代得非常好,路上測試兩年以后,開始把決策規(guī)劃用機器學(xué)習(xí)的方式去解決。
“如果你前面一步?jīng)]有做到,沒有那么扎實,直接蹦到端到端,我個人不是很看好。”王亮判斷,今年大概率能看到很多車企關(guān)于端到端的一些演示,但是量產(chǎn)應(yīng)該是在2025年。
在采訪的最后,王亮表示,十分希望特斯拉FSD能早日進入中國,但他相信它在中國的體驗不會比極越、華為、小鵬更好。即便有那么多卡也需要很多時間去適配中國的道路結(jié)構(gòu)、駕駛習(xí)慣。
>>點擊查看今日優(yōu)惠<<