清華AIR張亞勤：預(yù)訓(xùn)練生成式大模型，將帶來(lái)智駕技術(shù)范式新變革

2023-10-12 15:31:46 作者：喻欽濤

　　以GPT為代表的生成式大模型的出現(xiàn)，讓人工智能技術(shù)再次發(fā)生躍遷，AI技術(shù)正在經(jīng)歷從判別式到生成式的技術(shù)范式變革過(guò)程。隨著生成式、預(yù)訓(xùn)練、多模態(tài)等大模型技術(shù)的引入也在為自動(dòng)駕駛技術(shù)走向成熟的無(wú)人化提供了可能。

　　來(lái)自全球領(lǐng)先的人工智能研究機(jī)構(gòu)清華智能產(chǎn)業(yè)研究院（AIR）與國(guó)內(nèi)領(lǐng)先的自動(dòng)駕駛AI技術(shù)公司毫末智行，在對(duì)大模型的技術(shù)趨勢(shì)上及應(yīng)用上有著驚人的一致判斷。同時(shí)，雙方也已經(jīng)在基于數(shù)據(jù)驅(qū)動(dòng)決策優(yōu)化方向上展開深入探索，共同推動(dòng)全方位、多層次的產(chǎn)學(xué)研深度合作，加速AI技術(shù)在自動(dòng)駕駛領(lǐng)域的落地應(yīng)用。

　　2023年10月11日，中國(guó)工程院院士、清華大學(xué)教授、清華智能產(chǎn)業(yè)研究院（AIR）院長(zhǎng)張亞勤現(xiàn)場(chǎng)出席毫末智行舉辦的第九屆HAOMO AI DAY，發(fā)表了題為《智能駕駛新進(jìn)展——Big Model, Generative Al and Intelligent Driving》的主題演講，分享了他對(duì)生成式AI大模型應(yīng)用于自動(dòng)駕駛技術(shù)的最新思考，以及介紹了清華AIR在構(gòu)建Real2Sim2Real基礎(chǔ)模型平臺(tái)、自動(dòng)駕駛仿真平臺(tái)等最新成果。

　　以下是張亞勤院士的演講全文：

　　這么美麗的天氣，這么漂亮的地方，很高興參加HAOMO AI DAY，也感謝張凱董事長(zhǎng)和維灝的邀請(qǐng)。

　　今天是第九屆HAOMO AI DAY，首先我要祝賀毫末在不到4年的時(shí)間里取得了很大的成績(jī)，特別是走出一條自己的路。我印象當(dāng)中毫末是最先在自動(dòng)駕駛方面發(fā)布了生成式大模型DriveGPT，也很快地走向規(guī)?；?，在這么短的時(shí)間就能夠成為自動(dòng)駕駛領(lǐng)域的領(lǐng)軍企業(yè)。

　　今天我想談一下在智能駕駛方面新的進(jìn)展，這些年我一直用同樣的題目，但是每一次會(huì)發(fā)現(xiàn)里面的內(nèi)容都完全不同，特別是最近生成式AI出來(lái)之后，對(duì)自動(dòng)駕駛有了很大的推進(jìn)。

　　我們一直講新的“四化”——網(wǎng)聯(lián)化、智能化、共享化、電動(dòng)化，其中最重要的是兩化——電動(dòng)化、智能化。電動(dòng)化可以理解成是新能源，現(xiàn)在中國(guó)已經(jīng)是全球最活躍、最大的新能源市場(chǎng)，不管是在用戶規(guī)?；蛘叱隹谝?guī)模都是全球第一，這是新汽車的上半場(chǎng)。下半場(chǎng)最重要的是智能駕駛，未來(lái)5-10年全球競(jìng)爭(zhēng)的熱點(diǎn)和制高點(diǎn)就是自動(dòng)駕駛。人工智能是自動(dòng)駕駛核心的技術(shù)驅(qū)動(dòng)力，毫末從一開始成立就以AI作為公司的技術(shù)引擎，所以HAOMO AI DAY十分重要。

　　為什么這么多的企業(yè)都在做智能駕駛？包括傳統(tǒng)汽車廠商、新勢(shì)力、高科技企業(yè)都在進(jìn)入自動(dòng)駕駛市場(chǎng)？其實(shí)，這里面有很多的技術(shù)挑戰(zhàn)，首先從AI的角度來(lái)看，自動(dòng)駕駛是高度復(fù)雜的，需要很多算力、新算法，是最具有挑戰(zhàn)的AI垂直領(lǐng)域問(wèn)題，其次，自動(dòng)駕駛也是目前看到的聚生智能、邊緣智能、自主智能的交集。剛剛毫末的測(cè)試視頻里可以看到自動(dòng)駕駛面對(duì)這么多的復(fù)雜場(chǎng)景和變化，確實(shí)有很多的挑戰(zhàn)。

　　但是，我認(rèn)為自動(dòng)駕駛是完全可以實(shí)現(xiàn)的，其中有一些關(guān)鍵的問(wèn)題，有一些是市場(chǎng)的因素，有一些是非市場(chǎng)的力量。市場(chǎng)的因素包括技術(shù)是否可行？用戶有沒(méi)有真正需求？產(chǎn)業(yè)生態(tài)及商業(yè)模式。非市場(chǎng)因素也很重要，需要行業(yè)有技術(shù)突破，也需要有政府產(chǎn)業(yè)方面的支持，以及與政策法規(guī)突破。

　　在技術(shù)方面，一開始很多人在講無(wú)人駕駛是否可行，特別是L4以上是否可行？我從一開始認(rèn)為就是可行的。最近看到一些數(shù)據(jù)，無(wú)人駕駛比有人駕駛安全10倍左右，在去年我還在講是3倍，今年已經(jīng)到了10倍。這說(shuō)明技術(shù)突破已經(jīng)完成。在商業(yè)化路線圖上，目前也有各種各樣的方式，有一些是用單車智能，有一些車路協(xié)同，還有漸進(jìn)式、跳躍式的路線，開源、封閉的路線，不同企業(yè)都在探索不同的路線圖，沒(méi)有說(shuō)哪一個(gè)是完全正確的，產(chǎn)業(yè)在用不同的方式嘗試自動(dòng)駕駛。我知道毫末選擇了漸進(jìn)式，我覺(jué)得這些都很好，大家用不同的方式去探索。

　　最近在AI方面有很多新的突破。我們看到新的算法、新的框架，特別是預(yù)訓(xùn)練、多模態(tài)、多監(jiān)督學(xué)習(xí)、大模型成為主流。在Transformer之前，ResNeT曾經(jīng)是作為非常廣泛應(yīng)用的視覺(jué)算法框架，我之所以特別提到ResNeT，這個(gè)算法其實(shí)是中國(guó)的年輕科學(xué)家在中國(guó)完成的，因此中國(guó)科學(xué)家對(duì)于人工智能有著很大的貢獻(xiàn)。我聽到很多的說(shuō)法，認(rèn)為AI的核心主要是從歐洲來(lái)的，基本的理論是從那里來(lái)的，但是中國(guó)科學(xué)家在人工智能領(lǐng)域也做出了很多的貢獻(xiàn)。

　　大模型很重要的一點(diǎn)是要突破技術(shù)限制。過(guò)去六、七十年中主要有三個(gè)重要的理論：摩爾定律、馮·諾依曼架構(gòu)、香農(nóng)三定律，現(xiàn)在那這三個(gè)理論都在被突破。如果不突破，大模型不可能實(shí)現(xiàn)，這其中需要有新的傳感方式，新的感知方式，需要有新的計(jì)算機(jī)體系架構(gòu)的突破，包括芯片新框架等，現(xiàn)在主流的Transformer和CNN卷積神經(jīng)網(wǎng)絡(luò)也都不一樣。目前，數(shù)字技術(shù)產(chǎn)業(yè)主要還是基于硅片的計(jì)算，未來(lái)可能會(huì)有生物科學(xué)、光計(jì)算、量子計(jì)算。

　　當(dāng)前，很重要的一點(diǎn)就是大模型帶來(lái)生成式的AI，過(guò)去AI講的是分類，也就是判別式的AI?，F(xiàn)在可以完全生成新的內(nèi)容創(chuàng)意、數(shù)據(jù)的創(chuàng)意，也可以在場(chǎng)景方面有很多新的創(chuàng)意。下面我稍微講一下在這方面的工作。

　　大模型走向了新方向。首先是多模態(tài)，不僅僅是自然語(yǔ)言、圖像、視頻，也包括傳感信號(hào)、激光雷達(dá)等從所有車機(jī)發(fā)出的物理感知、生物感知信號(hào)。大家看到GPT-4大模型就是多模態(tài)的，其功能很強(qiáng)大，不過(guò)效率很低，大致比人大腦的計(jì)算和決策效率至少要低1000倍，所以還需要有新的算法，我覺(jué)得5年之后就會(huì)有新的算法出現(xiàn)。其次是自主智能，可以去自動(dòng)的完成任務(wù)，包括邊緣計(jì)算，把很復(fù)雜的大模型怎么樣放在手機(jī)、汽車、機(jī)器人邊緣上，還有具身智能和物理世界連在一塊，我認(rèn)為自動(dòng)駕駛是最重要的具身智能場(chǎng)景。未來(lái)是腦機(jī)智能階段，大模型將面臨怎么樣用到生物的世界、生命的世界，怎樣讓人和腦更好的連接。

　　新技術(shù)架構(gòu)都會(huì)用到大模型，就像新的AI操作系統(tǒng)一樣，上面會(huì)有很多垂直的模型，包括做自動(dòng)駕駛或者其他像生命科學(xué)垂直的模型。

　　我這里再簡(jiǎn)單講一下清華智能產(chǎn)業(yè)研究院（AIR），這是我從百度退休之后創(chuàng)立的人工智能產(chǎn)業(yè)研究院，3年的時(shí)間發(fā)展速度很快，也很幸運(yùn)能夠找到一批有很深產(chǎn)業(yè)背景，同時(shí)有很深學(xué)術(shù)造詣的科學(xué)家和企業(yè)CTO。現(xiàn)在差不多加上博士后、學(xué)生有300人左右，自動(dòng)駕駛是其中的一個(gè)方向，大概有100人左右。

　　每一次講到AIR研究院，都會(huì)想起25年前我回國(guó)創(chuàng)立微軟亞洲研究院。下個(gè)月會(huì)慶祝微軟亞洲研究院25周年，這個(gè)研究院本身相當(dāng)?shù)某晒ΑＮ覄倓傊v的大模型就是在微軟研究院所開發(fā)的，希望能夠打造面向中國(guó)產(chǎn)業(yè)的研究院。

　　我們?cè)趶氖赂鞣N研究的時(shí)候希望有一個(gè)大的框架，比如智能駕駛方面要先確定一些技術(shù)路線。首先我認(rèn)為多模態(tài)的感知很重要，從原多尺度、多維的數(shù)據(jù)很重要。因?yàn)樽鰺o(wú)人駕駛、智能駕駛，機(jī)器人的優(yōu)勢(shì)首先就是要求數(shù)據(jù)比較多，這個(gè)數(shù)據(jù)優(yōu)勢(shì)不能仍掉，所以我不同意馬斯克所說(shuō)的只用攝像頭，我們需要用更多的數(shù)據(jù)源。其次是現(xiàn)在很多的自動(dòng)駕駛會(huì)用到很多高精地圖，但是我們認(rèn)為未來(lái)是輕地圖，不能完全依賴于地圖。

　　自動(dòng)駕駛達(dá)到最后的安全、可靠階段一定是端到端方式實(shí)現(xiàn)的，這個(gè)也非常難，這里面有更詳細(xì)的技術(shù)因素，包括生成式AI、強(qiáng)化學(xué)習(xí)、大語(yǔ)言模型，我們有兩個(gè)平臺(tái)：數(shù)據(jù)大模型平臺(tái)、仿真平臺(tái)。

　　AIR也提出了自己的自動(dòng)駕駛基礎(chǔ)模型。首先模型提出了怎么樣獲取不同數(shù)據(jù)，包括真實(shí)世界數(shù)據(jù)和仿真數(shù)據(jù)。數(shù)據(jù)要經(jīng)過(guò)受控管道進(jìn)行清理，然后再經(jīng)過(guò)兩個(gè)大模型：感知模型、決策模型，包括在一些云端和車端的關(guān)鍵場(chǎng)所做出決策，有一些模塊是提供信息，有一些是統(tǒng)計(jì)的，也有一些是基于規(guī)則的模塊。

　　我在里面專門把“強(qiáng)化學(xué)習(xí)”拿出來(lái)，因?yàn)閺?qiáng)化學(xué)習(xí)我從百度開始的時(shí)候就在用到的，但是很難用。因?yàn)樽詣?dòng)駕駛安全性很重要，用起來(lái)相當(dāng)困難，但是我認(rèn)為這個(gè)是我們唯一真正達(dá)到更高安全的方式，強(qiáng)化學(xué)習(xí)可以學(xué)到新的東西，現(xiàn)在泛化的方式要靠強(qiáng)化學(xué)習(xí)去學(xué)習(xí)，最近也有很多新的進(jìn)展。怎么樣把強(qiáng)化學(xué)習(xí)用到很多模擬和決策，用到真正駕駛的行為當(dāng)中。左邊模型是垂直大數(shù)據(jù)，怎么樣用強(qiáng)化學(xué)習(xí)去調(diào)整模型。

　　另外是生成式AI怎么樣能用到仿真、決策當(dāng)中？這里面有一個(gè)小的例子，大模型和深度學(xué)習(xí)都有透明度的問(wèn)題，所以我們也做了這方面的研究，我到底為什么做這個(gè)決定？左轉(zhuǎn)、右轉(zhuǎn)、剎車，告訴我看到什么東西了，以及我為什么要做這個(gè)決定，它可以引導(dǎo)怎么樣做決定。這個(gè)是用真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)、垂直模型、大模型生成語(yǔ)意深度場(chǎng)景，包括交通和行人的信息。

　　另外是人腦和機(jī)器的融合，我們要去研究一下人是怎么開車的。人有的時(shí)候決策很好，有的時(shí)候決策不好，把這些信息通過(guò)傳感器收集起來(lái)。一方面在很長(zhǎng)時(shí)間人和機(jī)器要共駕，無(wú)人駕駛要慢慢理解人的駕駛。另一方面把模型用到算法當(dāng)中，改善算法的效率。

　　最后，我們非常高興能和毫末在技術(shù)方面有深度的合作，這個(gè)合作是關(guān)于怎么樣把強(qiáng)化學(xué)習(xí)用到認(rèn)知決策里面？怎么樣用真實(shí)的數(shù)據(jù)和實(shí)車場(chǎng)景用強(qiáng)化學(xué)習(xí)把它融合起來(lái)，當(dāng)前，強(qiáng)化學(xué)習(xí)有很多的問(wèn)題，在線或者離線的方式，包括函數(shù)定義的問(wèn)題、策略模糊性的問(wèn)題，所以我們做了很多這樣的研究。過(guò)去一年多，在國(guó)際頂會(huì)發(fā)表了很多的論文，同時(shí)也有專利，最重要的是現(xiàn)在開始用到車?yán)锩?，剛剛看到物流的小車已?jīng)開始用這些算法。

　　總結(jié)一下，如果看智能駕駛和自動(dòng)駕駛經(jīng)歷的不同階段，一開始的時(shí)候更多是用激光雷達(dá)和硬件驅(qū)動(dòng)，更多是基于人工的規(guī)則。2.0是軟件和算法的驅(qū)動(dòng)，這個(gè)階段有更多的傳感器，也要靠機(jī)器學(xué)習(xí)和規(guī)則?，F(xiàn)在走到3.0的時(shí)代，就是大模型的驅(qū)動(dòng)，這個(gè)階段有多傳感器用到端與端的算法，也會(huì)用到強(qiáng)化學(xué)習(xí)，可以更大程度地實(shí)現(xiàn)自動(dòng)駕駛在真實(shí)的世界落地。

>>點(diǎn)擊查看今日優(yōu)惠<<

本文導(dǎo)航

亚欧洲精品在线视频免费观看,国产成人精品本亚洲,校园春色综合网,国产91极品福利手机观看,99久久99久久精品国产片果冻,亚洲精品911,91视频一88av

清華AIR張亞勤：預(yù)訓(xùn)練生成式大模型，將帶來(lái)智駕技術(shù)范式新變革

清華AIR張亞勤：預(yù)訓(xùn)練生成式大模型，將帶來(lái)智駕技術(shù)范式新變革