倍可親

AI:世界模型替換大語言模型?

作者:國華B  於 2025-11-25 04:08 發表於 最熱鬧的華人社交網路--貝殼村

通用分類:政經軍事|已有2評論

在過去兩年裡,大語言模型(LLM)在語言理解、文本生成、推理、指令執行等方向取得突破,使AI在理解語義層面變得越來越可靠。但是,深度學習領域的領軍人物,如Meta公司的Yann LeCun、谷歌DeepMind的Demis Hassabis(下圖 infobae)


以及魁北克人工智慧研究所(Mila)的Yoshua Bengio(下圖 universitat wien),都認為世界模型,而非大語言模型,對於構建真正智能、科學且安全的人工智慧系統至關重要。專家們不認為當下風靡世界的大語言架構能夠達到通用人工智慧(AGI)的目標,因為大語言模型存在一些致命缺陷。


大語言模型的局限

大語言模型(LLM)通過模仿人類的言談來預測下一行動。這是一種依靠嵌入的人類知識的被動過程,實際上被人類語言及相關的行動給筐住了。用通俗語言來說,就是幾十億、幾百億、乃至幾千億的大語言模型訓練的數據,都是過去的、靜態的知識。生成式人工智慧將大量互不關聯的經驗法則,近似地對特定場景做出反應。我們輸入問題后,大語言模型會根據所收集的別人在類似情況下的反應,給出答案,或曰解決方案。這很像盲人摸象的寓言,每個人一次只觸摸大象的一部分,因此無法了解它的全貌。一個人摸到象鼻,就以為整頭大象像蛇;另一個人摸到象腿,就以為它更像樹;第三個人抓住象尾,就說它是繩子。有人形象地將大語言模型的這種能力稱之為「鸚鵡學舌。」

Meta公司的首席人工智慧科學家、圖靈獎得主楊樂昆(Yan LeCun 下圖 Instagram)近期在談及語言大模型和他現在極力主張的「世界模型」時指出,當前的大型語言模型架構不太可能達到通用人工智慧(AGI)的四個難以突破的致命弱點:理解物理世界的能力,持久記憶能力,推理能力和複雜規劃能力。


1. 理解能力 語言只是對感知的一種非常近似的表徵,但遠遠不能表達出我們的一切所見所聞。大語言模型根據前人(即訓練數據)、而非自身(對物理世界的直觀感知和)理解(即環境刺激),作決定(即反應模式)。對比你從文字上讀到或視頻里看到的郵輪旅遊與你親身乘坐郵輪旅遊的感受。多半你的親身體驗要比從媒體了解的郵輪旅遊更加豐富,理解更深和準確。

2. 持久記憶 大語言模型通過上下文窗口(context window)處理信息(即token)。包括prompt在內的所有輸入信息,一旦超過上限,便會卡頓。重開新上下文窗口后,前面窗口的信息多半已經遺忘或丟失。這意味著一切從零開始。

3. 推理能力 大語言模型在執行需要深層次認知技能(常識理解和抽象推理)來幫助人類解決「燒腦」的複雜現實任務時頗感力不從心。確實,大語言模型可憑簡單直接的「直覺式」推理來生成答案,但這樣的答案往往不準確,甚至是錯誤的。

4. 複雜規劃能力 大語言模型在規劃能力方面仍有顯著不足,尤其在處理圖結構類型的理解與規劃是表現不佳。

世界模型

正是基於目前為止尚無解決辦法的大語言模型自身缺陷,包括Meta公司的首席人工智慧科學家、圖靈獎得主楊樂昆(Yan LeCun)在內的一些AI大咖認為當前的大型語言模型架構不太可能達到通用人工智慧(AGI)。同時,這些AI大咖提出了世界模型。那麼,什麼是世界模型呢?簡而言之,世界模型就是人工智慧系統對現實世界的「內心理解」和「心理模擬」。世界模型是一種能夠對現實世界環境進行模擬,並基於文本、圖像、視頻和運動等輸入數據來生成視頻、預測未來狀態的生成式AI模型(下圖 ResearchGate)。世界模型最好被理解為一系列能力的連續體,四個對世界建模能力至關重要的核心維度:


  • 物理理解:培養對現實世界物理的直觀理解,理解物體的動力學以及因果關係。
  • 預測功能:它可以通過運行內部「假設」情景模擬來預測未來結果。
  • 自適應學習:它主動構建並完善其環境的心理地圖,並通過與現實世界的互動不斷更新其內部模型。
  • 計劃與控制:它利用對未來結果的預測來計劃和執行實現其目標的最佳行動方案。

具體表現就是,世界模型能夠理解和模擬物理世界的規律,如重力、摩擦力、運動軌跡等。這樣它(世界模型)在處理與物理世界有關的問題時,能夠提供更準確、更符合現實的預測和決策支持。而且,世界模型具有反事實推理能力。例如,它(世界模型)可以回答「如果環境條件改變,結果會怎樣」這類問題,從而為複雜問題的解決提供更多的思路和可能性。

從語言到世界

大語言模型讓AI學會了理解語言,世界模型則讓AI嘗試理去解世界。世界模型通過大量數據學習現實世界的物理規則,實施因果推理,從而預測、生產合乎現實規律的未來。世界模型最早可追溯至2018年,谷歌大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《Recurrent world models facilitate policy evolution》。他們在論文中提出,智能體要想高效學習,就必須在大腦中構建世界的內部模型。這種模型能夠通過感知輸入,去預測外部世界在未來的變化,在內部「想象」出一系列可能的結果,從而據此選擇行動。

讓世界模型走出學術圈,成為AI產業熱詞,是視頻生成技術的突破。2024年2月15日,OpenAI發布Sora模型,並在官方論文中提出,視頻生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視頻,還能在物理規律、光影運動、空間連續性等層面維持一致性,讓AI演繹世界成為可能(下圖 Fello AI)。幾乎在同一時間,Meta發布了由楊樂昆團隊主導的項目視覺自監督模型 V-JEPA(Visual Joint Embedding Predictive Architecture),首次在視覺領域明確提出構建世界模型的研究方向。十餘天後,DeepMind發布了Genie模型,一個「可玩世界」的生成模型,可從普通視頻素材中學習環境規律,並生成可實時交互的二維遊戲場景。用戶可以控制角色在生成的世界中移動、碰撞、跳躍,這種「生成—交互—反饋」的閉環。由此,Sora、V-JEPA與Genie,分別代表了世界模型演化的三個方向,生成世界、理解世界、參與世界,共同組成了世界模型認知層面的突破。


世界模型:美中兩種路徑

世界模型開始落地,在美國企業里有了實實在在的產品。波士頓動力發布了具有體操技能、並能完成一些簡單但危險工作的機器人,特斯拉的自動駕駛系統FSD(Full Self-Driving),能夠在駕駛員的監督下,通過多攝像頭視頻流在內部重建外部環境,智能、精確地完成包括路線導航、轉向、變道和泊車等功能。大陸公司也緊追不捨:華為公司在2024年4月發布ADS的3.0(乾崑),採用端到端架構,依託多源感測重建動態場景,實現「車位到車位」和「VPD泊車代駕」功能。此外,小鵬的XPlanner(規劃與控制大模型),百度Apollo推出了ADFM自動駕駛基礎模型,也都顯示,世界模型正在從虛擬場景落地走向真實世界,從「認知世界」轉向「執行世界」。FSD、ADS、XPlanner、Apollo構建了AI的落地行動,將智能具象化的通道。但由於認知方式與產業邏輯的分歧,美中兩國正走在兩條不同的路徑上。

在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的「世界建模陣營」。它們均從語言模型出發,沿著認知 - 生成 - 具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。Sora 2不僅整合了音視頻統一建模和動態光照控制,還新增 「Cameo」功能,讓用戶可以直接把自己嵌入生成的世界中。DeepMind發布的Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,用戶能實時控制角色,與環境交互並觀察反饋。Meta V-JEPA 2以自監督方式讓AI理解視頻中的時序與動力規律,成為世界模型「視覺直覺」的雛形。它不依賴標籤數據,而是通過預測畫面未來幀的方式,逼近人類感知世界的方式。與此同時,儘管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力。由此,美國的研究體系已經形成了完整的認知鏈條,從理解語言、預測視覺變化到生成並模擬世界。

而中國大陸的世界模型,其側重方向是依託產業鏈協同推進落地。從智能駕駛到行業智能體,再到具身機器人,大陸企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說,中國企業更看重系統集成與工程落地。智能駕駛之外,國內世界模型的思想和策略也正在進入更多行業場景。如華為盤古大模型引入物理建模框架,將世界模型理念應用到氣象預測、製造、製藥等工業領域;百度文心在視頻理解和數字人交互中融入動態世界建模機制,等等。這裡尤其要提及大陸在具身智能方向的系統化突破:宇樹的R1人形機器人(下圖 TikTok/ROBOT PHILOSOPHY),支持圖像與語音多模態融合,可進行動態行走與交互;優必選Walker S2具備靈巧雙臂與自主換電功能,更貼近工業執行場景;傅利葉的GR-3C人形機器人版本,可用於康復與人機協作;大陸的AI正推動世界模型從演算法概念真正落地到機器身體。


大語言模型與世界模型攜手同行 

儘管美中兩國為代表的世界模型演變生態邏輯不同,但從更長的技術周期看,這種分野正逐漸進化為互補關係。世界模型的最終方向,肯定不是生成完美的視頻,也不是控制一輛汽車,而是打通「理解-預測-行動」的完整閉環。從這個層面來說,美中兩國正共同構建通向通用智能的現實路徑。


如今,世界模型正在讓AI理解現實世界,一個有時間、有空間、有因果的動態系統,具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI,正在以GPT系列模型驅動人形機器人的決策系統;特斯拉的FSD與Optimus,分別在道路和工廠場景中驗證世界模型驅動的閉環控制;中國大陸的機器人企業也在讓模型直接掌控感測器與電機,使演算法真正落地到身體。AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中,它生成一段視頻或一段話,而在物理世界中,它必須理解摩擦力、時間延遲和人的意圖。未來的智能體將是一個多層協作系統:上層的大語言模型負責目標規劃與邏輯推理,中層的世界模型負責環境建模與因果預測,底層的執行系統則負責感知、行動與反饋。當這三層閉合,AI才真正擁有「意圖-計劃-行動」的完整循環,這正是通用智能的現實路徑。


參考資料

弗若斯特沙利文. (2025). 2025年中國世界模型發展洞察. Frost & Sullivan. 鏈接 https://img.frostchina.com/attachment/17584704/ayurnM6G7TWccfR3DFtre2.pdf

北京創新樂知網路技術有限公司. (2025). 講清楚了!一文看懂什麼是世界模型.  CSDN.  鏈接 https://blog.csdn.net/m0_59164520/article/details/148878934     

極智GeeTech. (2025). 世界模型崛起,AI路線之爭喧囂再起. 36Kr歐洲總站. 鏈接 https://eu.36kr.com/zh/p/3559837738555779

腦極體. (2025). 大語言火爆的今天,我們為什麼還要擁抱世界模型? 鏈接 https://cloud.kepuchina.cn/h5/detail?id=7309771082936344576

Cuofano, G. (2025). The AI world models revolution. The Business Engineer. 鏈接 https://businessengineer.ai/p/the-ai-world-models-revolution

MIT科技評論. (2025). 楊立昆:「AGI即將到來」完全是無稽之談,真正的智能要建在世界模型之上. MIT科技評論Technology Review. 鏈接 https://www.mittrchina.com/news/detail/14583

Nuriyev, Y. (2025).LLMs were just the warm-up. IT』s next revolution is wrld models. Yan Nuriyev. 鏈接 https://whoisyan.com/llms-were-just-the-warm-up-ais-next-revolution-is-world-models/

Pavlus, J. (2025). 『World models,』an olde idea in AI, mount a comeback. Quanta magazine. 鏈接 https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/


高興

感動

同情

搞笑

難過

拍磚

支持

鮮花

發表評論 評論 (2 個評論)

回復 rfw1972 2025-11-26 00:41
俺象棋下的好,一般不看兵書的都不是俺的對手,如果俺能看10多步,研究過棋譜的能預測幾十步,那麼機器人就能上百步幾百步。人根本不是機器的對手。人造機器的目的是模仿人,幫助人,不是超越。上帝造人,如果人也想模仿上帝來造機器人,只能是災難。伊甸園裡的上帝不讓亞當夏娃吃紅蘋果,是有道理的。
回復 Wuming123 2025-11-27 00:50
AI其實就是個資本吹起來的泡沫。充其量也就是一個早已存在的「專家系統」,說穿了,就是利用機器的無窮的記憶能力,和超強的搜索能力,以及基於這些能了的簡單推理。機器終究是機器,永遠不會給出「偷襲珍珠港」的奇謀的建議!

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-11-30 09:46

返回頂部