手機版 | 簡體版 | 發布廣告 |常用工具 | 網站地圖

登錄註冊找回密碼切換風格

我要發布

Google首席AI架構師：Gemini 逆風翻盤有18個關鍵

京港台：2025-11-29 02:50| 來源：硅星人 | 我來說幾句

Google首席AI架構師：Gemini 逆風翻盤有18個關鍵

來源：倍可親(backchina.com)

　　如果不是親耳聽到，很難想象一家科技巨頭會在鏡頭前承認：「兩年半前，我們遠遠落後了。」在這次訪談里，DeepMind CTO、Google 首席 AI 架構師 Koray Kavukcuoglu 罕見地拆開了過去兩年 Google 的真實處境——不是領先、不是規模，而是被時代加速甩在身後、再一點點追上來的過程。

　　他沒有炫耀參數，也沒有談模型的「神跡」，而是把重點放在更底層、更殘酷的問題上：一家全球最強的 AI 實驗室，如何在巨大的慣性中重新學會創新、學會工程化、學會組織協作、學會把技術真正變成產品？

　　Gemini 的故事只是表層。真正發生變化的，是 Google 這家公司的骨架與節奏。

　　原文訪談鏈接：

　　https://www.youtube.com/watch?v=fXtna7UrL44

　　以下是根據訪談實錄整理的關鍵議題，希望也能幫你更清晰地讀懂 Google 的這次「重構」。

　　一、真正的起點不是突破，而是承認自己落後了

　　訪談中最刺耳也最重要的一句話，出現在結尾：

　　「當 Gemini 項目開始時，我們離最先進水平還很遠，那是一個追趕。」

　　這句話標誌著一個巨大的認知轉折：Google 承認自己在 LLM 起跑線上是真正的落後者。不是「狀態不好」這種輕描淡寫，而是「遠遠落後」。這意味著 DeepMind 必須拋棄此前十年建立的自信，從最基礎的用戶使用場景重新學習。

　　而這種承認，是一切變化的源頭。Koray 在訪談里反覆強調：真正的轉折不是某個新技術，而是 Google 接受自己必須重新建立訓練方式、產品方式、工程方式以及組織方式。

　　二、為什麼中國用戶最先明顯感覺到 Gemini 變好了？

　　訪談一開始，主持人提到一個特別中國的反饋：Gemini 3 在中國用戶中被形容為「像 Windows XP 一樣穩定好使」。Koray 很有興緻地解釋，這不是模型本身突然「智商暴漲」，而是 Google 終於把「模型 × UI × 任務鏈路」統一到了一起。

　　以前的大模型「聰明」，但不「好使」。而 Gemini 3 的轉折來自：

　　用戶界面更直覺

　　任務拆解更穩定

　　模型更能理解人類意圖

　　產品團隊從訓練階段就介入模型設計

　　真實用戶使用數據可以直接反哺訓練

　　換句話說，Google 終於開始像一家做產品的公司在做大模型。這是 Gemini 3 變化最直觀的原因，也是中國用戶最先體會到的原因。

　　三、Benchmark 正在失效，但真實世界永遠不會

　　外界批評 Google 的 benchmark 成績起伏不定，但 Koray 的解釋很罕見地觸及本質：主流 benchmark 正在靠近它們的自然上限。GPQA、ARC-AGI 等「智商題」已經被模型頂住，HLE 這種曾經難得離譜的測評如今也能「持續提升」。

　　Benchmark 會枯竭，但真實世界不會。學生寫作、科學研究、專業翻譯、複雜跨語境對話、跨語言表達……這些場景永遠無法被一個固定測試集窮盡。Google 把模型的最終價值從「得分」轉向「能不能幫人完成任務」。這是 Gemini 的第一性原理轉變。

　　四、Gemini 3 的核心不是智力提升，而是讓模型「能幹活」

　　從 Gemini 3 開始，Google 清晰確立了三個優先順序最高的能力方向。

　　第一是指令遵從。模型要能「無二義性地理解和執行用戶的真實意圖」。這對用戶體驗影響巨大，比提升推理指標更重要。

　　第二是國際化能力。Google 的用戶覆蓋超過 200 個國家，「理解全球不同文化語境」成為模型能力的底層指標，而不是翻譯能力的延伸。

　　第三是工具調用與代碼執行。這是未來智能體的基礎，模型必須不僅能理解問題，還能執行任務、運行工具鏈、處理工程環境中的真實任務。

　　三者加在一起，構成了 Google 的「Gemini 設計哲學」：智能不是來自「更聰明的對話」，而來自「更可靠的執行」。

　　五、為什麼多模態強的 Google，起初 Agent 卻不好用？

　　這是主持人問得最尖銳的問題，也是外界最想知道的矛盾。Koray 的答案意外樸素：研究員可以在實驗室推動視覺理解，但 Agent 的任務不是研究員能想出來的，是用戶逼出來的。

　　真正的 Agent 場景來自：

　　創作者的任務鏈路

　　學生的寫作流程

　　工程師的工具調用模式

　　商業用戶的複雜需求

　　也就是說，Google 走了一條與 OpenAI 不同的路徑：不是「demo 優先」，而是「真實用戶需求優先」。Agent 的能力不是靠酷炫演示驅動的，而是靠「讓百萬用戶每天用」驅動的。

　　六、Google 真正的反超武器：模型、產品、工程第一次被統一

　　Koray 多次強調一個過去被低估的事實：Gemini 3 不是「模型團隊」的勝利，而是「工程、產品、模型、安全」第一次從第一天就被捏在一起推進。

　　以往是：

　　模型訓練完了，產品團隊接盤

　　安全團隊在最後做審核

　　工程團隊負責部署

　　而今天是：

　　產品團隊從訓練最初就參與

　　安全成為訓練目標，而不是後置規則

　　真實用戶數據（AI Studio、AI Overviews、Anti-Gravity）直接反哺模型

　　使用成本、延遲、推理路徑都在訓練階段就被優化

　　Google 終於構建出了一個「模型 × 產品 × 工程」的統一體系。這是它在 2024–2025 年真正反超的結構性基礎。

　　七、Nano Banana Pro 的突破不是「畫圖變好看」，而是「理解世界結構」

　　外界關注圖像模型總是看「清晰度」、「風格」，但 Koray 在訪談中反覆強調，真正的突破來自：

　　理解 PDF、表格、圖表等複雜文檔結構

　　具備結構化的視覺推理

　　第一次能生成「概念一致的信息圖」

　　一句值得記下的話是：

　　「當一個模型能把複雜概念準確地用一張信息圖表達出來，你就能感受到真正的理解。」

　　這是多模態模型的真正價值，也直接指向 Agent 的未來能力。

　　八、多模態不是功能加法，而是真正的「世界模型」入口

　　Koray 給出了一個簡潔但極具說服力的框架：

　　文本是線性的，視覺是空間的，音頻是時序的。真實世界不是只靠線性序列能描述的。因此一個真正智能的模型必須同時具備三種感知維度。

　　這也是為什麼 Google 在推進統一多模態模型上比任何公司都更加堅持——不是因為多模態「更炫酷」，而是因為它是理解世界的基礎。

　　九、統一模型並不是「把視覺塞進語言模型」，而是一場架構革命

　　外界經常把「統一模型」理解成方向正確的趨勢，但 Koray 的解釋更具技術深度。他指出：文本和圖像的輸出結構根本不同——文本是一維的，圖像是二維的。這意味著訓練方式、損失函數、優化器、token 化方式都要重新發明。

　　統一模型不是「時代潮流」這麼簡單，而是必須突破的工程極限。Google 的敘事沒有浪漫，也沒有玄學，只有工程難題。

　　十、DeepMind 的文化基因：謙遜、科學與大規模協作

　　這部分是整場訪談里最「人味」的地方。

　　DeepMind 的文化由三部分組成：

　　科學心態 —— 所有問題回到實驗與學習，而不是路徑依賴。

　　謙遜 —— 那句「我們不知道終極配方」不是客套，而是策略。

　　協作能力 —— 從 25 個人寫論文到 2500 人一起推進單一模型。

　　在一個公司試圖從科研轉型為工程、從工程轉型為產品的過程中，這種文化結構變得至關重要。

　　十一、規模是 Google 的最大難題，也是最大武器

　　Koray 承認：規模越大，一致性越難。但規模本身就是推進力。

　　Google 能夠同時推進統一模型、多產品落地、跨部門協作、全球化數據管線、超大規模訓練與部署，是因為它擁有世界上最成熟的基礎設施鏈路。

　　過去兩年，這條鏈路從「沉睡」變回「主力」，重啟了 Google 的攻勢。

　　十二、安全不是限制能力，而是訓練能力

　　Google 與 OpenAI 在安全策略上最大的差異不是嚴格程度，而是方式：安全不是「訓練后加過濾器」，而是「訓練中學會安全」。

　　這是「讓模型可靠」的關鍵，並且天然適配 Google 的基礎設施規模。

　　十三、統一模型與專用模型不是路線爭奪，而是成本優化

　　Koray 說得很實在：這不是意識形態問題，而是效率問題。未來一定會同時存在統一模型與專用模型，Google 的策略是用合適的工具做合適的任務，而不是堅持單一範式。

　　這種務實，是 Google 過去缺失、現在重新找到的品質。

　　十四、Google 的真正底氣：基礎設施的重新激活

　　「我們能成功，不是因為我們更聰明，而是因為基礎設施足夠強。」Koray 的這句話其實深刻揭示了大模型時代的一個底層事實——智能規模化不是靠天才，而是靠管線。

　　能訓練、能部署、能迭代、能處理全球數據、能保持安全一致性的，是基礎設施，而不是演演算法。

　　十五、Google 不相信有單一路徑，也不相信「持續擴參」能走到終點

　　他說：

　　「我們不知道最終配方。」

　　這句話的潛台詞是：

　　擴參不是終局

　　統一模型不是最終答案

　　多模態不是最後形態

　　未來模型的路線還遠未定型

　　這種「帶著不確定性繼續前行」的姿態，反而比某些公司宣稱的「xxx 是通往 AGI 的唯一路徑」更具有長壽感。

　　十六、下一階段的重點：推理、執行與真正的自主性

　　Gemini 3 的故事才剛開始。Google 的下一個目標是：

　　深層推理

　　多步任務執行

　　在複雜場景中的魯棒性

　　從「會回答」到「會行動」，這是整個行業的共同方向，但 Google 給出了相對清晰的內部路徑。

　　十七、Google 內部的時間結構：研究 × 工程 × 產品的等權分配

　　Koray 透露，團隊的時間分配不是研究優先，而是三者等權。這意味著一個模型從訓練到使用的全過程是統一推進的，而不是線性流程。

　　這是模型「真正可用」的關鍵原因。

　　十八、Gemini 是一個全公司規模的「科學工程項目」

　　訪談的最後，Koray 用「全公司的科學工程任務」來形容 Gemini 的誕生。那更像是一種內部視角的註腳：模型的進步來自結構性調整，而結構性調整本身比模型更難。訓練、數據、工程、產品、安全、協作……這些環節重新對齊，才構成了今天的 Gemini。

　　過去兩年，Google 不是在尋找捷徑，而是在恢復一個體系應有的速度和一致性。

　　當這些基礎再次穩固起來，一個屬於 Google 的節奏也重新出現了。

原文連結倍可親聲明 DMCA 政策

Google首席AI架構師：Gemini 逆風翻盤有18個關鍵

Google首席AI架構師：Gemini 逆風翻盤有18個關鍵

更多科技前沿 文章 >>

更多科技前沿文章 >>