You are browsing the Hong Kong website, Regulated by Hong Kong SFC (CE number: BJA907). Investment is risky and you must be cautious when entering the market.
理想汽車VLA司機大模型 從動物進化到人類 在成長中持續解決行業問題
格隆匯 05-07 21:29

核心觀點:

●AI分爲信息工具、輔助工具和生產工具三個層級,VLA司機大模型成爲交通領域專業的生產工具;

●規則算法是“昆蟲動物智能”,端到端模型是“哺乳動物智能”,VLA司機大模型是“人類智能”;

●VLA司機大模型通過預訓練、後訓練和強化訓練,模擬人類學習駕駛的過程,確保模型帶來舒適性、安全性的體驗;

●用戶通過自然語言與司機Agent溝通,跟人怎麼說,就跟司機Agent怎麼說;

●超級對齊規範司機Agent的職業性,世界模型解決模型的黑盒問題;

●構建能力的過程包括研究、研發、能力表達、能力變成業務的價值四個步驟,第一步的“研究”是理想汽車最重要的投入;

●DeepSeek助力VLA司機大模型研發加速,理想汽車開源自研汽車操作系統回饋社會;

●成爲更有能量的人,關鍵在於關注自我,接受自身的優點和不足,並用成長替代改變。

2025年5月7日,理想汽車推出“理想AI Talk第二季——理想VLA司機大模型,從動物進化到人類”,理想汽車董事長兼CEO李想重點分享了對於人工智能的最新思考,VLA司機大模型的作用、訓練方法和挑戰,以及對於創業和個人成長的見解。

李想將AI工具分爲三個層級,分別是信息工具、輔助工具和生產工具。目前,大多數人將AI作爲信息工具使用,但信息工具常伴隨大量無效信息、無效結果和無效結論,僅具參考價值。成爲輔助工具後,AI可以提升效率,例如現在的輔助駕駛,但仍需人類參與。未來,AI發展爲生產工具後,將能獨立完成專業任務,顯著提升效率與質量。

李想表示:“判斷Agent(智能體)是否真正智能,關鍵在於它是否成爲生產工具。只有當人工智能變成生產工具,纔是其真正爆發的時刻。就像人類會僱傭司機,人工智能技術最終也會承擔類似職責,成爲真正的生產工具。”

VLA的實現不是突變的過程,是進化的過程

目前的L2、L2+組合駕駛輔助仍屬於輔助工具階段,而VLA(Vision-Language-Action Model,視覺語言行動模型)能夠讓AI真正成爲司機,成爲交通領域的專業生產工具。對理想汽車而言, 未來的VLA就是一個像人類司機一樣工作的司機大模型”。

VLA的實現不是一個突變的過程,是進化的過程,經歷了三個階段,對應理想汽車輔助駕駛的昨天、今天和明天。第一階段,理想汽車自2021年起自研依賴規則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,並於2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。

端到端模型在處理複雜問題時存在侷限,雖可藉助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領域的能力有限。同時端到端模型也難以與人類溝通。爲了解決這些問題並提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,並在多項頂級學術會議上發表論文,夯實了理論基礎。

在端到端的基礎上,到第三階段,VLA將開啓“人類智能”的階段。它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統,具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解並真正執行行動,符合人類的運作方式。

VLA訓練過程模擬人類學習,對齊人類價值觀

VLA的訓練分爲預訓練、後訓練和強化訓練三個環節,類似於人類學習駕駛技能的過程。預訓練相當於人類學習物理世界和交通領域的常識,通過大量高清2D和3D Vision(視覺)數據、交通相關的Language(語言)語料,以及與物理世界相關的VL(Vision-Language,視覺和語言)聯合數據,訓練出雲端的VL基座模型,並通過蒸餾轉化爲在車端高效運行的端側模型。

後訓練相當於人類去駕校學習開車的過程。隨着Action(動作)數據的加入——即對周圍環境和自車駕駛行爲的編碼,VL基座變爲VLA司機大模型。得益於短鏈條的CoT,以及Diffusion擴散模型對於他車軌跡和環境的預測,VLA具備實時性的特點,實現了在複雜交通環境中的博弈能力。

強化訓練類似於人類在社會中實際開車練習,目標是讓VLA司機大模型更加安全、舒適,對齊人類價值觀,甚至超越人類駕駛水平。強化訓練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習)完成安全對齊,使模型遵守交通規則,貼閤中國用戶的駕駛習慣;二是將純強化學習模型放入世界模型中訓練,提升舒適性,避免碰撞事故,遵守交通規則。經過預訓練、後訓練和強化訓練後,VLA司機大模型即可部署至車端運行。

VLA司機大模型以“司機Agent(智能體)”的產品形態呈現,用戶可通過自然語言與司機Agent溝通,跟人類司機怎麼說,就跟司機Agent怎麼說。簡單通用的短指令由端側的VLA直接處理,複雜指令則先由雲端的VL基座模型解析,再交由VLA處理。

超級對齊確保AI決策安全,世界模型破解AI黑盒難題

除了提升專業能力,VLA司機大模型還需解決安全性和模型黑盒的問題。

模型能力越強,越需要職業性約束,以確保能力下限。爲了保障VLA司機大模型能夠實現職業司機般的安全和舒適,避免學習加塞等違規行爲,理想汽車在強化訓練環節投入大量資源,並於2024年底組建超過100人的超級對齊團隊,相當於爲司機Agent注入職業素養。

爲解決模型的黑盒問題,理想汽車結合重建和生成兩種路徑,打造了真實、符合物理世界規律的世界模型,覆蓋所有交通參與者和要素。基於世界模型的仿真能力,VLA可以在世界模型中低成本、準確地驗證現實問題,提升解決問題的效率,有效應對模型黑盒帶來的挑戰。

判斷司機Agent是否是個好司機,有三個關鍵標準:專業能力、職業能力和構建信任的能力。VLA司機大模型提升了專業能力,超級對齊增強了職業能力,VLA通過理解自然語言、具備記憶能力提升了構建信任的能力。

人工智能時代,紮實的基本功比走捷徑重要

理想汽車實現技術快速躍遷的背後,是從研究、研發到能力表達,再到將能力變成業務價值的基本功積累。研究是關鍵,研究突破後,研發的效率會大幅提升,且注重價值轉化,最終實現業務落地。

理想汽車堅持自研,通過技術賦能用戶價值。例如,在輔助駕駛方面,由於英偉達Orin-X芯片無法直接運行語言模型,端到端+VLM的輔助駕駛方案對部分企業來說仍具挑戰。理想汽車依託自有編譯團隊,自研底層推理引擎,使芯片可通過INT4(4比特整型)量化的方式運行VLM。同時,憑藉芯片、控制器設計和自研汽車操作系統等綜合能力,理想汽車實現了讓雙Orin-X芯片和Thor-U芯片運行同等規模的VLA司機大模型。李想表示,大型企業的基本功和能力永遠無法被逾越。

得益於DeepSeek的開源,理想汽車在VLA司機大模型的語言能力研發上提速顯著,節省了近9個月的時間和數億元成本。儘管如此,理想汽車仍選擇加大投入,在基座模型上投入超預期3倍的訓練卡,專注打造適配多場景的自研模型。李想表示:“我們可以站在巨人的肩膀上,但它只是其中的一部分。”在受益開源的同時,理想汽車也選擇開源自研的汽車操作系統——理想星環OS,回饋社會。

成長帶來能量,在痛苦中保持正能量

今年7月,理想汽車將迎來成立十週年。李想表示,創業路上苦多於甜,他選擇保留那些有價值的美好片段,用來激勵自己保持正能量。“創業確實不容易,但是沒必要苦哈哈的。苦和甜是一個硬幣的正反面,取決於看哪一面。”他將企業遭遇的打擊視爲必須面對的挑戰,也正是這些挑戰,賦予了理想汽車更多的能力。也正因這份積極樂觀的創業心態,理想汽車才能快速成長爲千億營收規模、百萬交付量的新勢力企業。

談及如何成爲更有能量的人,李想認爲,關鍵在於關注自我,接受自身的優點和不足,並用成長替代改變——成長意味着增強能力。除此之外,李想強調親密關係同樣重要,關注他人的成長也能帶來能量,家人和同事能夠和他形成互補,相互支撐。“我需要家人和同事甚至超過了他們需要我,首先是我需要他們,然後纔是他們需要我,我們在一起能夠形成非常強的腦力和心力。”李想表示。

回顧幾次創業經歷,李想表示,從高中創辦個人網站至今,自己的思維方式沒有什麼變化:遇到問題解決問題,解決別人不願解決的難題,解決用戶的痛點,不斷向他人學習。不同的是,如今面臨的問題更復雜、服務的用戶羣體更多、公司規模和組織也更龐大。“幾次創業一路走來,最難時有人相助,遇坑也能迅速爬出,一幫人齊心協力變得更好,這是種幸運,也沒什麼可後悔的。”

面對AI的發展,李想認爲,在AI面前所有的人性都應被保留,無論好壞,因爲一切人性都是文化、生命、性格、能力的特質,也是人類真正的生命力所在。

從使用增程電動和5C超充技術解決電池成本高、充電難、充電慢的問題,到自研汽車操作系統攻克傳統汽車操作系統性能差、開發緩慢、芯片匹配週期長等挑戰,理想汽車始終以技術創新解決行業無法解決的問題。自研VLA時,理想汽車更是踏入了人工智能的無人區。當前,輔助駕駛走到了新的十字路口上,理想汽車將不斷挑戰成長的極限,持續爲行業和用戶創造價值。

Follow us
Find us on Facebook, Twitter , Instagram, and YouTube or frequent updates on all things investing.Have a financial topic you would like to discuss? Head over to the uSMART Community to share your thoughts and insights about the market! Click the picture below to download and explore uSMART app!
Disclaimers
uSmart Securities Limited (“uSmart”) is based on its internal research and public third party information in preparation of this article. Although uSmart uses its best endeavours to ensure the content of this article is accurate, uSmart does not guarantee the accuracy, timeliness or completeness of the information of this article and is not responsible for any views/opinions/comments in this article. Opinions, forecasts and estimations reflect uSmart’s assessment as of the date of this article and are subject to change. uSmart has no obligation to notify you or anyone of any such changes. You must make independent analysis and judgment on any matters involved in this article. uSmart and any directors, officers, employees or agents of uSmart will not be liable for any loss or damage suffered by any person in reliance on any representation or omission in the content of this article. The content of the article is for reference only and does not constitute any offer, solicitation, recommendation, opinion or guarantee of any securities, virtual assets, financial products or instruments. Regulatory authorities may restrict the trading of virtual asset-related ETFs to only investors who meet specified requirements. Any calculations or images in the article are for illustrative purposes only.
Investment involves risks and the value and income from securities may rise or fall. Past performance is not indicative of future performance. Please carefully consider your personal risk tolerance, and consult independent professional advice if necessary.
uSMART
Wealth Growth Made Easy
Open Account