亚欧洲精品在线视频免费观看,国产成人精品本亚洲,校园春色综合网,国产91极品福利手机观看,99久久99久久精品国产片果冻,亚洲精品911,91视频一88av

無圖全國(guó)都能開,端到端+VLM 理想智駕還有哪些黑科技?

2024-07-06 01:23:25 作者:liuxue1

  快速、高效、信息量密集是看完理想智駕夏季發(fā)布會(huì)后的最直觀感受,全場(chǎng)都在高密度輸出,酣暢淋漓。這次的重點(diǎn)有兩件事,一是面向當(dāng)下,在7月份內(nèi)推送OTA 6.0版本,為所有理想AD Max的用戶,帶來全國(guó)都能開的無圖NOA的功能;二是展望今后,分享今年下半年,理想智駕將繼續(xù)成長(zhǎng)的技術(shù)方案—端到端+VLM(視覺語言模型)。

 
一、7月內(nèi)全量推送無圖NOA,全國(guó)都能開!

  早在今年5月10日,理想就開啟了1000名內(nèi)測(cè)用戶的無圖NOA體驗(yàn),6月份來到了萬人規(guī)模,6月底向全量用戶開啟不限量招募(智駕里程需要達(dá)標(biāo))。相信對(duì)智駕感興趣的理想車主朋友,已經(jīng)用上無圖NOA,歡迎在評(píng)論區(qū)給我們分享體驗(yàn)。

  哪些理想用戶可以收到更新?

  這次是面向所有AD Max用戶(購(gòu)買的是帶激光雷達(dá)的車型)的全量推送版本OTA6.0,將覆蓋理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max車型,7月內(nèi)推送。屆時(shí),全國(guó)都能開的無圖NOA將上車。

  無圖NOA的能力提升,在什么地方?

   

  1、哪里都可以開?。ㄖ馗兄?,無圖無先驗(yàn))

  得益于感知、理解和道路結(jié)構(gòu)構(gòu)建能力的全面提升,無圖NOA擺脫了對(duì)先驗(yàn)信息的依賴。用戶在全國(guó)范圍內(nèi)有導(dǎo)航覆蓋的城市范圍內(nèi)均可使用NOA,甚至可以在更特殊的胡同窄路和鄉(xiāng)村小路開啟功能。

  2、繞行絲滑-時(shí)空聯(lián)合規(guī)劃(橫向控制+縱向控制,時(shí)間和空間模型并行運(yùn)行)

  實(shí)現(xiàn)了橫縱向空間的同步規(guī)劃,并通過持續(xù)預(yù)測(cè)自車與他車的空間交互關(guān)系,規(guī)劃未來時(shí)間窗口內(nèi)的所有可行駛軌跡?;趦?yōu)質(zhì)樣本的學(xué)習(xí),車輛可以快速篩選最優(yōu)軌跡,果斷而安全地執(zhí)行繞行動(dòng)作。

  3、路口輕松過-上帝視角(導(dǎo)航信息、感知信息全融合)

  選路能力顯著提升。無圖NOA采用BEV視覺模型融合導(dǎo)航匹配算法,實(shí)時(shí)感知變化的路沿、路面箭頭標(biāo)識(shí)和路口特征,并將車道結(jié)構(gòu)和導(dǎo)航特征充分融合,有效解決了復(fù)雜路口難以結(jié)構(gòu)化的問題,具備超遠(yuǎn)視距導(dǎo)航選路能力,路口通行更穩(wěn)定。   

  4、默契安心

  重點(diǎn)考慮用戶心理安全邊界,用分米級(jí)的微操能力帶來更加默契、安心的行車體驗(yàn)。通過激光雷達(dá)與視覺前融合的占用網(wǎng)絡(luò),車輛可以識(shí)別更大范圍內(nèi)的不規(guī)則障礙物,感知精度也更高,從而對(duì)其他交通參與者的行為實(shí)現(xiàn)更早、更準(zhǔn)確的預(yù)判。得益于此,車輛能夠與其他交通參與者保持合理距離,加減速時(shí)機(jī)也更加得當(dāng),有效提升用戶行車時(shí)的安全感。

  是不是全國(guó)都能開?是不是有路就好用?關(guān)注太平洋智駕,后續(xù)我們將帶來實(shí)測(cè)內(nèi)容。

  主動(dòng)安全能力提升:

  這次OTA6.0,也為用戶帶來主動(dòng)安全上的升級(jí),同步將在7月內(nèi)推送:

  1、復(fù)雜路口 AEB(自動(dòng)緊急制動(dòng)):

  行人、兩輪車、三輪車典型的三種類型,從左、右、前靠近,做到了全覆蓋。這三種對(duì)象從任何一個(gè)方向靠近,如果它侵占了理想汽車的安全系統(tǒng)區(qū)間,理想汽車都會(huì)啟動(dòng)AEB幫助用戶主動(dòng)剎停。

  2、夜間AEB(自動(dòng)緊急制動(dòng)):

  在高速上夜間行駛,周圍基本上沒有光照,沒有開燈、沒有反光條。理想AD Max的AEB能做到120公里時(shí)速完全剎停。

  3、全自動(dòng)AES(自動(dòng)緊急轉(zhuǎn)向):

  解決“消失的前車”安全隱患場(chǎng)景。行駛過程中的我方車輛和前車,都以非??斓乃俣仍诟咚偕闲旭偅蝗磺扒败嚰眲x停,前車避讓而我車距離很近不可能剎停。這種情況下理想汽車提供AES(自動(dòng)緊急轉(zhuǎn)向)功能,車輛會(huì)減速并避讓過去,提升安全上限。

  4、全方位低速AEB(自動(dòng)緊急制動(dòng)):

  用戶在日常生活的低速場(chǎng)景中,特別在地庫(kù)停車環(huán)境復(fù)雜的情況下,可能會(huì)出現(xiàn)比如柱子、墩子,理想汽車的低速AEB,以上情況都可以剎停,避免剮蹭。

 
二、智駕新思路:端到端+VLM

  作為理想智駕展望未來的新技術(shù),端到端+VLM的講解部分偏向?qū)W術(shù),比較深?yuàn)W。我盡量以我的視角來給大家?guī)胫v解。首先我們要肯定的是,這套技術(shù)論確實(shí)在智駕同質(zhì)化、跟隨化嚴(yán)重的當(dāng)下,打開了新思路,也提出更好解決智駕場(chǎng)景問題的新方法。

  理想智能駕駛副總裁郎咸朋博士表示,新思路是來源于諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼在《思考,快與慢》中闡述了認(rèn)知心理學(xué)中系統(tǒng)1與系統(tǒng)2的概念,這也是人類的認(rèn)知模式。

  系統(tǒng)1可以看做為直覺、肌肉記憶。對(duì)應(yīng)理解為,人根據(jù)自己過去的經(jīng)驗(yàn)和習(xí)慣形成的直覺,可以做出快速的決策。如自動(dòng)換擋或者在看到紅燈時(shí)無需深思熟慮地停車。

  系統(tǒng)2則是深度思考能力,琢磨的能力。對(duì)應(yīng)理解為,人需要經(jīng)過思考或推理才能解決這種復(fù)雜的問題和應(yīng)對(duì)未知的場(chǎng)景。比如遇到突發(fā)緊急情況、復(fù)雜的交通或不熟悉的路段。

  系統(tǒng)1和系統(tǒng)2相互配合,也組成了人類認(rèn)知和理解世界、做出決策的基礎(chǔ)。想想自身解決一個(gè)簡(jiǎn)單或一個(gè)復(fù)雜的問題,是不是也需求這兩種系統(tǒng)。所以,自動(dòng)駕駛要解決的問題,也就是如何仿生的問題。   

  系統(tǒng)1和系統(tǒng)2是如何應(yīng)用到自動(dòng)駕駛中的?

  系統(tǒng)1,就是由各家廠商天天都在說的端到端(E2E)模型來實(shí)現(xiàn),直接用來快速響應(yīng)常規(guī)駕駛問題。是快系統(tǒng)。

  系統(tǒng)2,則是由VLM來實(shí)現(xiàn)。什么是VLM?就是視覺語言模型(Visual Language Model),

  這個(gè)模型擅長(zhǎng)解讀圖片或視頻里的信息,能用自然語言把看到的內(nèi)容都描述出來,所以可以把它的能力理解為看圖說話。

  所以在自動(dòng)駕駛中,VLM可以用于場(chǎng)景理解,能識(shí)別和描述道路環(huán)境,這里面包含了思考的能力。通過大量數(shù)據(jù)訓(xùn)練,VLM就能理解交通場(chǎng)景中的復(fù)雜交互事件。是慢系統(tǒng)。

  即系統(tǒng)1,處理簡(jiǎn)單任務(wù),足以應(yīng)對(duì)駕駛車輛時(shí)95%的常規(guī)場(chǎng)景。系統(tǒng)2,解決復(fù)雜場(chǎng)景,占日常駕駛的約5%。系統(tǒng)1和系統(tǒng)2相互配合,分別確保大部分場(chǎng)景下的高效率和少數(shù)場(chǎng)景下的高上限,成為人類認(rèn)知、理解世界并做出決策的基礎(chǔ)。

  端到端和VLM分別是如何工作,如何配合呢?

  我們先說端到端。理想第一代的智駕大家都知道是重先驗(yàn)的NPN路口神經(jīng)網(wǎng)絡(luò)的方案,是典型的模塊化方案,感知、定位、規(guī)劃、導(dǎo)航、NPN等等。

  第二代智駕,也就是7月要全量推送的,目前正流行的分段式端到端,是感知和規(guī)控兩個(gè)大模型。

  第三代智駕,我們所說的真正意義的端到端模型,它是一個(gè)One Model的結(jié)構(gòu),只有一個(gè)模型,輸入的是傳感器,輸出的是行駛軌跡。

  端到端模型的輸入信息,主要來源于攝像頭和激光雷達(dá)。多傳感器特征經(jīng)過CNN主干網(wǎng)絡(luò)的提取、融合,投影至BEV空間。為提升模型的表征能力,理想汽車還設(shè)計(jì)了記憶模塊,兼具時(shí)間和空間維度的記憶能力。在模型的輸入中,理想汽車還加入了車輛狀態(tài)信息和導(dǎo)航信息,經(jīng)過Transformer模型的編碼,與BEV特征共同解碼出動(dòng)態(tài)障礙物、道路結(jié)構(gòu)和通用障礙物,并規(guī)劃出行車軌跡。

  黑盒特征,端到端方案已經(jīng)不顯示系統(tǒng)看到了什么,所以也不存在也傳統(tǒng)的輔助駕駛感知界面讓用戶來觀察。系統(tǒng)解碼出動(dòng)態(tài)障礙物、道路結(jié)構(gòu)和通用障礙物,讓用戶在屏幕上看到,多次一舉的目的,也是為了加強(qiáng)用戶的安全感。

  多任務(wù)輸出在一體化的模型中得以實(shí)現(xiàn),中間沒有規(guī)則介入,因此端到端模型在信息傳遞、推理計(jì)算、模型迭代上均具有顯著優(yōu)勢(shì)。

  在實(shí)際駕駛中,端到端模型展現(xiàn)出更強(qiáng)大的通用障礙物理解能力、超視距導(dǎo)航能力、道路結(jié)構(gòu)理解能力,以及更擬人的路徑規(guī)劃能力。如復(fù)雜道路通行,路口一堆違停車,需要從兩車中間穿行,這樣復(fù)雜場(chǎng)景,通過寫規(guī)則是寫不出來的。

  總結(jié)來說,端到端的優(yōu)勢(shì)就是高效傳遞,駕駛體驗(yàn)更聰明和更擬人;高效計(jì)算,駕駛時(shí)車輛會(huì)反應(yīng)更及時(shí)和更迅速;高效迭代 ,更高頻率的OTA。

  再來談?wù)刅LM視覺語言模型。它的算法架構(gòu)由一個(gè)統(tǒng)一的Transformer模型組成,將Prompt(提示詞)文本進(jìn)行Tokenizer(分詞器)編碼,并將前視相機(jī)的圖像和導(dǎo)航地圖信息進(jìn)行視覺信息編碼,再通過圖文對(duì)齊模塊進(jìn)行模態(tài)對(duì)齊,最終統(tǒng)一進(jìn)行自回歸推理,輸出對(duì)環(huán)境的理解、駕駛決策和駕駛軌跡,傳遞給系統(tǒng)1輔助控制車輛。

  具官方介紹,理想汽車的VLM視覺語言模型參數(shù)量達(dá)到22億,對(duì)物理世界的復(fù)雜交通環(huán)境具有強(qiáng)大的理解能力,即使面對(duì)首次經(jīng)歷的未知場(chǎng)景也能自如應(yīng)對(duì)。

  VLM模型可以識(shí)別路面平整度、光線等環(huán)境信息,提示系統(tǒng)1控制車速,確保駕駛安全舒適。VLM模型也具備更強(qiáng)的導(dǎo)航地圖理解能力,可以配合車機(jī)系統(tǒng)修正導(dǎo)航,預(yù)防駕駛時(shí)走錯(cuò)路線。同時(shí),VLM模型可以理解公交車道、潮汐車道和分時(shí)段限行等復(fù)雜的交通規(guī)則,在駕駛中作出合理決策。

  可以大家也注意到了一個(gè)問題,VLM是不是看起來非常厲害,但為啥沒有在自動(dòng)駕駛中廣泛應(yīng)用?

  時(shí)延,還是時(shí)延。大模型的特點(diǎn),是擁有巨大的參數(shù)量,理想汽車的VLM視覺語言模型參數(shù)量達(dá)到了22億。所以這也會(huì)導(dǎo)致模型的推理時(shí)間有較高延遲,少則幾秒。別看就幾秒鐘,但放在自動(dòng)駕駛場(chǎng)景當(dāng)中,總不能說遇到一個(gè)場(chǎng)景,等車先思考4-5秒,顯然這是無法滿足自動(dòng)駕駛對(duì)實(shí)時(shí)性的要求。所以,VLM模型更多應(yīng)用在自動(dòng)駕駛的仿真訓(xùn)練中,幫助車輛學(xué)會(huì)應(yīng)對(duì)更多場(chǎng)景。

  理想就怎么能解決這個(gè)問題呢?

  從4.1秒的時(shí)延縮短到0.3秒時(shí)延,提升了13倍。優(yōu)化路線如上圖,涉及到理想從魔改行業(yè)原有方案,到創(chuàng)新方案。技術(shù)細(xì)節(jié)過于深?yuàn)W,有從事相關(guān)行業(yè)或有技術(shù)背景的朋友,可以驗(yàn)證一下,我們?cè)谶@就不展開了。不過,既然理想敢公開技術(shù)細(xì)節(jié),也代表著取得了一定的進(jìn)展,誰也不會(huì)留辮子給競(jìng)爭(zhēng)對(duì)手。

  理想汽車基于快慢系統(tǒng)系統(tǒng)理論形成了自動(dòng)駕駛算法架構(gòu)的原型。系統(tǒng)1由端到端模型實(shí)現(xiàn),具備高效、快速響應(yīng)的能力。端到端模型接收傳感器輸入,并直接輸出行駛軌跡用于控制車輛。系統(tǒng)2由VLM視覺語言模型實(shí)現(xiàn),其接收傳感器輸入后,經(jīng)過邏輯思考,輸出決策信息給到系統(tǒng)1。如障礙物和夜間行駛時(shí)的減速建議,公交車道、潮汐車道的行駛建議。

  甚至還可以識(shí)別交警的動(dòng)態(tài)手勢(shì),還有施工改道的指示牌。

  端到端+VLM的能力怎么驗(yàn)證呢?

  將在云端利用世界模型進(jìn)行訓(xùn)練和驗(yàn)證。理想利用重建+生成的世界模型。 把真實(shí)數(shù)據(jù)通過3DGS(3D高斯濺射)進(jìn)行重建,并使用生成模型補(bǔ)充新視角,兩者結(jié)合所生成的場(chǎng)景既可以保證場(chǎng)景是符合真實(shí)世界的,也同時(shí)解決了新視角模糊的問題。

  在場(chǎng)景重建時(shí),我們需要將場(chǎng)景中的動(dòng)靜態(tài)分離,核心思想是靜態(tài)環(huán)境進(jìn)行重建,動(dòng)態(tài)物體進(jìn)行重建和新視角生成,變成360°的新資產(chǎn),將兩者結(jié)合生成一個(gè)3D的物理世界,同時(shí)里面的動(dòng)態(tài)資產(chǎn)可以被隨意編輯和調(diào)整,實(shí)現(xiàn)場(chǎng)景的部分泛化。

  生成相對(duì)于重建具備更好的泛化性,可以自定義地改變天氣、時(shí)間、車流等條件,生成不同的場(chǎng)景來考驗(yàn)?zāi)P偷姆夯芰Γu(píng)價(jià)自動(dòng)駕駛系統(tǒng)在各種條件下的適應(yīng)能力。

  這種兩種方式可以取長(zhǎng)補(bǔ)短,生成相當(dāng)考試前的模擬題,考驗(yàn)知識(shí)廣度;重建相當(dāng)于真題,考驗(yàn)知識(shí)深度。

  所以在這樣的無限云端環(huán)境里,可以進(jìn)行自動(dòng)駕駛系統(tǒng)的充分學(xué)習(xí)和考試,確保系統(tǒng)的安全可靠。

  技術(shù)的落地是為產(chǎn)品服務(wù),前不久我們找來華、蔚、小、理,也就是目前智駕頭部廠的主力車型做了一次智駕橫評(píng)對(duì)比。當(dāng)時(shí)還是NPN方案的理想L7的表現(xiàn),并不算亮眼,智駕可用范圍少,規(guī)控策略僵硬是比較明顯的感受。所以這次全量無圖NOA后,按理是補(bǔ)齊了覆蓋率和規(guī)則過重的問題。整體切換到無圖方案后的理想AD Max的體驗(yàn),到底如何?有多少進(jìn)步?敬請(qǐng)關(guān)注太平洋智駕,我們后續(xù)將第一時(shí)間帶來分享。

  這次發(fā)布會(huì)的最后還有一個(gè)彩蛋,除了全量推送無圖NOA外,還有端到端+VLM系統(tǒng)的鳥蛋用戶內(nèi)測(cè),十分期待。

>>點(diǎn)擊查看今日優(yōu)惠<<

    本文導(dǎo)航
    熱門文章
    相關(guān)閱讀
    點(diǎn)擊加載更多