倍可親

如何以DeepSeek為契機實現信息技術全面超美?

作者:Brigade  於 2025-1-31 22:57 發表於 最熱鬧的華人社交網路--貝殼村

作者分類:轉文|通用分類:流水日記|已有4評論

汪濤

如果認真讀完本文(90%以上普通讀者都可以理解清楚),您不僅是對人工智慧,而且對整個信息技術的認知就達到這個領域全球一切博士生導師,甚至院士的層次。

DeepSeek衝擊波意味著的是全球信息技術即將實現的基本架構革命,這場革命有兩大特徵:

硬體體系從算力依賴型轉向存儲依賴型。

整體架構從硬體依賴型轉向編程依賴型。

一、DeepSeek衝擊波

一個月前,整個美國軍事圈在密集地討論中國六代機。

半個月前,整個媒體圈在討論小紅書上中美大對賬。

現在,整個全球科技圈又在密集地討論DeepSeek。

順便提一下,DeepSeek V3的發布日期也是在2024年12月26日,教員的誕辰紀念日。在DeepSeek V3發布后短短的一個月左右,又連續兩個大動作。2025年1月20日發布了DeepSeek R1,這是真正引爆全球的版本,其達到與OpenAI o1版本性能基本相同的程度,但訓練成本僅為不到560萬美元,只是o1的3%-5%。

請注意,並不是說DeepSeek R1的技術性能遠超過了OpenAI o1,而是在性能基本相同或略好的情況下,其訓練成本、訓練時間卻呈現數量級的下降,這兩者帶來的結果都是顛覆性的。原因在於:

訓練成本極低的主要因素是對算力需求數量級的下降,這樣一來,英偉達人工智慧算力卡市場需求就會受到極大的衝擊。

訓練時間從過去6個月下降到只有6天,這會使人工智慧軟體的迭代速度發生質的變化。6個月的訓練時間,簡直就是農業領域種子大田實驗的周期長度了,一粒水稻種子從發芽、插秧、抽穗、收割的時間也不過如此。早熟型的水稻全部生長周期甚至也就3個月。任何軟體都是需要不斷迭代演進的,如果你的軟體需要6個月才能完整地運行一次,而我的只要6天,那麼你的軟體做一次升級后要進行一下測試就得至少等6個月時間,而我的只要6天,那麼即使我的軟體一開始比你的差很多,要不了幾個回合我已經迭代10次了,你一次都還沒迭代完,那你還怎麼玩?就算你有天大的編程本事也沒法和我競爭了。而且DeepSeek還完全開源,這麼一搞,全世界所有公司的大模型軟體都不得不追隨這個技術路線,尤其是技術理念,否則就是農業文明與工業文明相競爭了。

DeepSeek在美國的蘋果應用商店上下載量瞬間排名第一。

2025年1月27日,Deepseek引發了美國納斯達克震動,尤其受衝擊最大的英偉達股價下跌16.97%,上一個交易日下跌3.12%。1月28日除夕,在美股重挫之後,DeepSeek又發布開源多模態模型Janus-Pro,其中70億參數版本的Janus-Pro-7B模型在使用文本提示的圖像生成排行榜中優於OpenAI的 DALL-E 3和Stability AI的Stable Diffusion。

500

500

英偉達兩天內蒸發7000多億美元,跌去了約五分之一的市值,27日一天跌去了約5900億美元,創下美國歷史上單日下跌幅度的歷史記錄。也帶動納斯達克指數當日跳空暴跌3.07%。當然,這種短期的波動不一定完全具有長期意義,1月28日英偉達反彈了8.93%,29日再次下跌4.10%。但是,一個中國剛成立一年多、僅140人的小公司發布的產品,居然對整個美國納斯達克科技股板塊產生如此巨大的影響力,這是歷史上的第一次。

因為整個美國科技界產生的恐慌,來自美國的一些特定的IP地址針對DeepSeek伺服器發起了空前的惡意攻擊。這種惡意攻擊一直持續到現在還在繼續並且不斷升級。

特朗普也在個人賬號上發出哀嘆:

500

500

請注意特朗普個人賬號發這個信息的合集分別是#美國優先#中國正殺死美國#AI#MAGA!!!

500做出DeepSeek的幻方量化創始人梁文鋒在總理召集的座談會上發言。

中國出現如此震撼性的科技進展,也令整個中國社會沸騰。很多網友留言希望我談一下這個問題,很多媒體也向我約稿談相關問題。對於如此專業的技術領域,一般媒體人,甚至一些專業人士都可能很難抓住要害。

人們可能非常疑惑的一個問題是:為什麼DeepSeek居然能在美國看起來如此領先的AI領域做出讓人炫目的巨大改進?或者換個說法:為什麼在看似美國領先的AI領域居然會存在如此巨大的改進空間?如果沒有這種改進空間存在,即使你有天大的本事也無濟於事。

其實,這種巨大的改進潛力不僅不是什麼奇怪的事情,而且是整個信息技術領域存在的極為普遍的情況,只不過是DeepSeek把這層窗戶紙在全社會層面捅穿了而已。要清楚理解DeepSeek為什麼能做到這一點,如果是專業的網友,可以直接去看以下這篇DeepSeek R1的論文,甚至直接去看開源的源代碼。

500

500

但對於絕大多數普通網友來說,如果完全陷到這些AI專業技術細節中去的話,肯定會頭大,即使想盡辦法進行科普,可能也還是很難理解。並且,即使專業的網友去直接看DeepSeek的論文,或者分析清楚DeepSeek的所有演算法,也未必能完全理解為什麼他可能做出這麼大的改進。

所以,本文將儘可能採用90%以上的網友都能聽得懂的語言或科普知識,來讓人們理解為什麼美國式的信息技術會存在如此巨大的提升空間,並且是幻方量化的創始人梁文峰的團隊成功做到了。事實上,這種潛在改進空間的存在是我窮其一生系統研究過,一直努力去進行改進,並且獲得過不少成果的。所以,本文不僅是要讓普通網友聽明白,而且希望成為一篇信息技術領域的「討美檄文」,藉此機會號召所有專業的網友、政府機構相關人員和投資人看明白之後,從效率最優化角度發起一場系統的中國式信息技術革命,徹底顛覆美國式的信息架構和體系。我會在本文中枚舉出大量可以做出巨大改進的重多技術細節,但整個信息技術領域事實上可以改進的地方太多了,本文最後會給出初步的總體建議。

二、認識世界的兩種路徑

為了理解本文,我們不是像一般人那樣一上來就先鑽到技術細節中去,而是脫離出來,先站在儘可能最高層面的、科學認識世界的兩種基本路徑的簡要比較上。一個是經驗的方法,另一個是理論的方法。這兩種方法大家都是比較熟悉的。

經驗的方法是什麼呢?用信息技術的語言來說,就是存儲的歷史知識依賴型的方法。當遇到一個新問題時,經驗的方法可能不是去深入系統地理解問題本身,而是瞬間就能給出答案,它是直接對比問題與存儲的歷史知識,找出差別最小的一個,只要對存在差別的地方進行一下簡單的處理,就能給出結果。所以,這種方法也是算力依賴度相對最小的。它本質上主要就是一種以經驗知識查詢和調用為主的演算法。

另一種方法是理論的方法,發展到極致就是科學的理論,牛頓力學用極簡的四個定律的數學公式,就能描述世間所有的運動規律。麥克斯韋方程也只是幾個極簡的數學公式,就能描述所有電磁學的規律。理論的方法存儲的知識量可以達到極小化,這是它的經濟性體現。但是,當用這種理論的方法去解決實際問題時,要用這些數學公式進行大量的計算才能給出結果。所以,這種方法是算力依賴型的。

以上兩種方法是各有優劣的,並不能絕對說哪一個就更好。

經驗的方法算力依賴度最小,速度極快,但不一定完備、準確和深入,它也有可能搞不清因果關係。在計算機編程的時候可能通用性不是最好,要針對特定問題進行定製。

理論的方法知識存儲量最小,完備,因果關係清晰,精確,編程相對簡單且通用性較強,但實際解決問題時需要精確獲得所有邊界條件,必須要大量的計算。

現實生活中並不一定絕對分得清採用的是理論的方法還是經驗的方法,很多都是兩種方法的混合。例如很多經驗公式看起來是一個理論,也的確可能存在一定的因果關係成分,但事實上是界於理論和經驗之間的、不完備、也就是不完全清楚因果關係的數字統計結果。

現在的人工智慧很大程度上也是界於理論和經驗之間的一種形態。

如果舉一些具體的例子來說明一下以上兩種方法在信息技術中的體現,可能大家會更清晰一些。我在北郵上研究生期間的導師蔡學勛,他主要的一個貢獻是最早實現了將原來只能用巨型機處理的氣象衛星數據,轉換成在個人電腦上進行處理。這個團隊研究的成果之一是最先從衛星雲圖中發現了著名的1987年大興安嶺火災,就是那個當年春晚小品節目中戲稱為被費翔「冬天裡的一把火」點燃的森林大火。要將衛星雲圖數據在算力很低的個人電腦上進行處理,遇到的最大挑戰就是如何降低相關數據處理的算力需求。其中最大的運算量之一,就是將原始衛星雲圖數據投影到平面圖上時,要進行數據的投影轉換。它的原理並不複雜,也就是初中幾何知識就能明白的,這裡不去討論,只是要說明這種投影轉換每一個像素點處理都要進行三角函數的計算。

三角函數的公式書寫起來非常簡單,可是要在計算機中進行計算的話就很麻煩。因為現代的電子計算機CPU事實上只能進行二進位的加法運算。所以,一切數學計算事實上都是把它們通過一定的演算法轉換成一系列加法運算的累加。一般的方法是先將任何數學函數展開成只含有加減乘除的冪級數展開式,然後再把其中的乘、除、減法轉換成加法運算。

500

上面就是一個初中生都可以理解的正弦函數的冪級數展開式案例。從純理論上說,上面這個展開式的運算量是無限大的。但在不同的精度要求中,可以選擇一個有限的最大n取值就可以了,以此進行可以保證一定精度的有限運算量。最大的n取值不同,當然運算量就不一樣。

但這樣一轉換,表面看起來一個很簡單的數學函數,在計算機中需要進行的最基本二進位加法運算量就可能會擴張到成千上萬次二進位加法運算。好在計算機過去按摩爾定律可以不斷地翻倍增長,所以計算量大點用計算機來算就不是問題。這就是算力依賴型的解決思路。

因為每一個像素點都要進行這樣的處理,如果直接採用這種理論的算力依賴型的方法,在上個世紀80年代根本不可能在個人電腦上實現哪怕最簡單的衛星圖像數據的平面投影處理。所以解決的方法就是:先計算出一個實際應用中會用到的相對完整的三角函數表,並且存儲起來。下面是一個常用的三角函數表。

500

當用到哪個角度的三角函數計算時,直接到這個表裡面查就可以了。這就把前面那種算力依賴型的方法運算量成千上萬倍地降低了。如果要計算的角度不能直接查到,是在表中的兩個角度之間,那就用相鄰的兩個表中的角度三角函數值進行簡單的插值處理就可以得出結果了。這種方法就是存儲的歷史知識依賴型的方法。

原來我們聽說過中國兩彈一星的科學家們是用算盤算出了原子彈的模型,很多人感覺不可思議。事實上,他們肯定不會用和計算機完全一樣的演算法來進行計算,肯定是會尋求算力依賴度最小的方法。主要也是基於各種已經算出來的函數表,諸如對數表、根號表、三角函數表等,在計算過程中儘可能依賴查表和插值處理,以此來盡最大可能地減少計算量,再用算盤來算,否則是不可能完成這個工作的。當年祖沖之用算盤算一個圓周率都花了幾十年的時間,如果真的用算盤直接進行各種函數的計算,肯定是不可能在有限時間內算出原子彈相關模型的。

初中生實用的根號表

500

為什麼我們要先談這些最基本的科學認識方法論問題,因為只要理解了這些,就會很容易理解DeepSeek為什麼如此高效的最基本的演算法:以「先期預訓練為基礎」的純強化學習(Pure Reinforcement Learning)演算法。雖然單純從強化學習演算法本身來說可以從任何基礎開始,但前面有一個預訓練的基礎還是非常重要的,簡單點說就是已經訓練過的內容就不要再重複訓練了。就像已經計算過的三角函數就不要在每一個像素處理時重複計算。這就是節省大量算力的奧秘之一。強化學習演算法主要以原來的訓練結果為基礎,只是不斷調整新的處理結果與目標問題(強化學習演算法本身的專業術語叫「環境」)之間的偏差(專業術語叫「獎勵」)。

我之所以盡量不用專業術語,而用一般人能理解的自然語言,不僅是理解起來會更為容易,還有更重要的一點是:很多專業術語事實上可能存在不一定完全合適的問題,很容易讓人產生誤解,後面會談到。

所以,簡單地說最新的DeepSeek版本訓練成本只有560萬美元是不完全準確的,DeepSeek過去投入的17億不能說在最新的版本中沒有任何體現。但在此基礎上,完全新的訓練真的可以做到新增的成本就非常低了。所以,說它最新的訓練成本只有560萬美元當然是有道理的。

那其他很多大模型難道是每次新版本都是一次又一次重複去訓練嗎?客觀地說,利用已經有的訓練結果這種經驗知識依賴的方法在其他大模型中也有體現,但總體上說他們的確是存在大量一遍又一遍進行重複訓練的問題。這當然對算力的消耗就數量級地增大了。

所以,信息技術雖然變化很快,但如果理解了最一般的科學認識方法,就會發現幾乎沒什麼新技術。一切所謂的創新技術都是原來已經有的技術原理在新的技術條件下的再現,別被那些所謂的「尖端技術」包裝唬住了。中國是如此,美國同樣是如此。

三、提升信息處理效率的最一般方法

1.去掉冗餘

無論是理論的還是經驗的方法,要提升信息處理效率,其最基本的原則其實是一樣的,就是儘可能減少「重複」 —— 或者用信息技術的語言叫減少「冗餘」。

如果是在存儲中,已經存了一份信息,完全相同的信息不用再重複地存儲,這就是存儲信息的壓縮。一切文本、圖像、視頻的壓縮技術和存儲器的壓縮技術,都是通過各種途徑減少重複的信息,這就可以節省存儲空間。

如果是已經計算過一遍的模型,就不要再重複地進行計算了,這就是演算法上運算量的壓縮。

2.適當降低精度

精度要求越高,一般來說對算力的需求就更大。尤其是一些關係不大的細節,簡單地去掉,就可以節省大量的算力以及存儲量。例如,圖像處理中,因為人對顏色的細節敏感度遠遠低於亮度,所以一般是在相鄰的四個像素的色度信息中,只保留一個就可以了。這樣本來是每個像素一個亮度兩個色度共三個信息,四個像素3*4=12個信息,直接可以去掉6個(三個像素中的兩個色度信息),這樣就可以直接將圖像信息量減少一半。這種圖像格式就叫4:2:0,原始圖像格式是4:4:4。在圖像的有損壓縮中,也是將部分不重要的細節信息(信息量會更大)直接丟掉,從而極大減少存儲所需要的信息量。

在人工智慧中,也存在這種適當降低精度的方法,叫「量化」。我個人認為這個術語起的名字很不好,尤其一般人可能不太好理解。所以,如果你是普通人,看不懂一些專業術語,不要自卑,可能不是你理解力不行,而是這個術語名字起得真是太差了,這種情況其實是非常普遍的。量化這個詞用得場合太多,大多都不太合適。例如DeepSeek這家公司最初所從事的行業就叫「量化交易」。這個「量化交易」中的量化一詞起得名字也不是太好。最好的詞是普通人第一眼看到的理解就是準確的,並且與術語本身字面的意義最好一致。所謂「量化」是把原來不是「數量的」變化成「數量的」。例如模數轉換(A/D)電路中把原來的模擬量轉化成數字量,這個過程就叫「量化」。這也是「量化」這個專業術語最原始的正宗含義,其他領域的「量化」叫法都是借用的。我就是在大學里學電路專業出身的。所以這種術語唬別人可以,想唬住我行不通。

人工智慧中所謂的「量化」是簡單地降低數據的精度,例如把4個位元組的浮點數據減少成2個位元組的浮點數據,存儲量就簡單地降低了一半。原來的數據就是數量化的,只是精度減少了,這怎麼能稱為「量化」呢?它是「粗略化」「低精度化」。但如果這麼按真實含義來起名字,就顯得自己這個技術很Low。所以就起個「量化」這種聽起來高大上又讓人云里霧裡的名字。

量化交易中的「量化」這個詞也是不太合適的。因為原來的投資交易也是依據大量數學模型和數據為基礎的。量化交易的關鍵,是把選股和買賣決策判斷,通過設定相應的交易策略后,交給計算機程序自動實現了。所以,稱「計算機自動化交易」可能更容易理解一些。當然,也可能最初搞這個交易的人就是不希望普通人搞明白,才起這種聽起來高大上又含糊不清的術語。既然最初的人起了名字,後面的人只好延續這個術語,好顯得自己是專業的。所以,不要以為你能講專業術語就能唬住人。

與量化交易相對應的還有「高頻交易」。中國證監會2024年5月11日發布的《證券市場程序化交易管理規定(試行)》第二十一條的規定,高頻交易是指具備以下特徵的程序化交易:(一)短時間內申報、撤單的筆數、頻率較高;(二)日內申報、撤單的筆數較高;(三)證券交易所認定的其他特徵。其實,這些定義都沒抓住要害,也是這個名稱中的「高頻」這個用詞不完全恰當造成的。這種交易的關鍵要害是利用比一般交易所更低延時的通訊技術手段,因為其延時更低,這樣就可以在一個極短的時間內,相當於提前可以獲知股價的變動,從而提前下單買進和賣出,這就鐵定可以賺錢了,雖然一次賺得不一定很多。因此,這種交易的本質是「短時提前交易」,而不一定絕對的頻度很高。當然,因為其短時,股票的差價就不一定會大到那裡去,為了獲得更多收益,它一般的確會進行更多次的交易。多次可能「高頻」也可能不一定是「高頻」,而只是在相當長的一個時間內「多次」,頻度倒不一定很高。但無論如何,如果你不具備低時延的光纖通訊系統作支撐,比他人提前獲取股票價格和買賣雙方的下單信息,單純的程序化高頻只會死得很慘。

回到本節主題的降低精度減少硬體需求的方法,需要注意的是,簡單的降低精度也有可能導致最終效果不一定滿足要求。所以這裡面也是有技巧的。

3.適當簡化、降低問題複雜度

如果要計算的參數越多,當然計算量就越大。如果對模型進行適當地簡化,減少參數和複雜度,計算量一般就會相應地下降。100億參數模型進行數據訓練,與1000億參數相比,簡單地來評估,在其他方面都一樣的情況下,計算量就會下降一到兩個數量級。但複雜度或參數減少了,可能其性能表現等也會有所降低。如果能夠很好地選擇參數和調整好各項係數,有可能做到性能表現上差異極小。這種方法在人工智慧中叫「蒸餾」(Distillation)。我同樣認為這個術語很不好甚至非常糟糕。因為它顯然是引用化學中的蒸餾法這個術語。但化學中的蒸餾法是什麼呢?

比如我們喝的蒸餾水,是通過把含有極少量雜質的水加熱成蒸汽,然後在另一個冷凝器重新變成水。從中可知蒸餾法的特點:目的是去除水中極少量的雜質,因此,蒸餾以後的水與之前的可能體積和重量變化都極小。一公斤含雜質的水,蒸餾以後可能還是非常接近一公斤的純凈的水。

但人工智慧中的蒸餾法想表達的過程,與化學中的蒸餾法顯然有比較大的差異。事實上它與「提純」更為接近:

提純后體積重量一般會極大地變小。

提純后的物質可能還是有極少量雜質。

被提純過程丟棄的部分也可能含有少量未提純出來的有效物質。

或者,也可以叫「裁減」等更準確並更容易理解的術語表達。

但是,如果採用這些更通俗並更準確和容易理解的術語的話,那就顯不出是尖端技術了。所以,叫「蒸餾」這種有點莫名其妙的術語,就會顯得比較牛掰。在技術甚至很多科學領域,其實都存在類似情況。我過去曾專門寫文章討論過分子生物學領域起的學術名字非常糟糕的大量案例。一旦搞清楚這些,讀者理解他們就不會那麼困難了。

所以,本文為什麼一開始就強調要站在更高的層面來看問題,因為只有這樣「看扁」那些專業術語,你才能很容易地真正理解它們的準確含義。

OpenAI現在指責DeepSeek是對其對應版本軟體的蒸餾。事實是否如此我們不去評論,但就算存在相應的過程又能怎麼的?這本身就是人工智慧中通用的合理方法。況且,DeepSeek也未必只針對OpenAI為藍本去進行優化。還可以有更多自我優化的過程。他也未必只是從OpenAI模型的參數中簡化出來的。

你可以去指責DeepSeek抄襲,但我可以告訴你,這個世界上幾乎就沒有幾個技術是絕對原創的。可以說美國幾乎所有的技術全是在新的基礎條件下,對完全相同技術原理的不同實現和綜合,只不過給了個不同的技術概念名稱,就以為是全新的頂尖科技了。整個現代的計算技術就是對中國算盤的抄襲和新技術條件下的細節改變,所有信息存儲技術全都是對中國造紙術在新技術條件下的發展,所有現代的數字編碼技術全是對周易八卦的抄襲和新技術條件下的發展。

有人指責鴻蒙系統中有Android的代碼,那你以為Android是谷歌原創的嗎?不是。並且,創立Android的安迪·魯賓在之前有在蘋果和微軟公司的工作經歷。Android是在Linux、蘋果、微軟公司的大量技術資源基礎上發展起來的。谷歌不僅不是Android的原創者,而且它是把安迪·魯賓與其他人在2003年10月創立的Android公司,在2005年通過收購併入谷歌的。

微軟最初的DOS系統,就是抄襲基爾·代爾的CP/M操作系統,而且還不是微軟自己抄襲,是直接買的另一家抄襲的小公司產品,連其中基爾·代爾最初的語法錯誤「1 file(s) copied」都原封不動地抄襲過來,一直到微軟的DOS操作系統被視窗系統替代完了,這個語法錯誤都沒完全改過來。

只要法律上不違反專利,「抄襲」換個名字就叫「學習」。

所以,那些指責DeepSeek抄襲的人早點閉嘴吧,這唯一證明的只是你們壓根就不是這個圈子裡的人。除了中國的算盤、造紙和周易是真正0到1的原創技術以外,此後的信息技術發展從始至終就全都是「抄襲」的。

四、DeepSeek的特色技術

1. 三個重要的特色技術

要理解DeepSeek為什麼效率這麼高,僅僅說它採用了蒸餾技術是差太遠的。需要認識到它的確有很多自己特色性的技術。從這些特色性的技術中可以看到,他們的出發點都是盡最大努力去減少人工智慧中的各項成本。例如:

不依賴於對用於訓練的數據進行人工打標籤。

混合專家架構(Mixture of Experts:MoE)。

多頭潛在注意力(Multi-Head Latent Attention,MLA)

2. 打標籤是怎麼回事

要理解DeepSeek不依賴於人工打標籤,首先得理解打標籤是怎麼回事。人工智慧軟體為什麼能理解人類的文本和圖像等數據?這個如果不理解對數據打標籤的話可能會感覺很神奇,但理解了這個后可能就沒有什麼神秘感了。如果從一開始就是把互聯網上的數據直接輸入人工智慧軟體里,要讓它準確理解是極為困難的。所以,原始的數據並不是直接輸給軟體,而是先由人去判斷並打上標籤。簡單來說,比如「美國」和「美圖」這兩個詞,前一個要理解成一個國家「美國」,后一個要理解成「美麗的圖片」簡稱。這類理解是首先由人工智慧的工程師制定好一些規則,然後交由專門進行打標籤的人去乾的活。所以,別以為大模型的人工智慧真的那麼神奇,真的有智能,其實還是人類智能的計算機化。但是,這麼乾的話有一個問題,就是人工打標籤是一個成本很高,效率也比較低,而且工作量很大的事情。美國Scale AI公司就是專業給其他大模型公司做人工打標籤的工作的。所以現在這個公司的創始人亞歷山大·王就馬上跑出來公開指責DeepSeek。原因很簡單,你DeepSeek要是這麼搞,會讓Scale AI壓力山大,沒活幹了。

那DeepSeek為什麼可以不依賴於人工打標籤呢?最初的模型還是需要人工打標籤的,但是我們前面說了,提升效率的方法就是去掉冗餘——已經打過標籤的應該就不用重複再打了呀!另外,採用強化學習的方法,事實上不是在事先對數據進行人工理解的判斷並打標籤,而是可以在模型運行之後做出人工的判斷來調整之前訓練的數據,也起到與人工打標籤類似的作用。如果整體上是在之前已經採用人工打標籤的方法訓練過的基礎數據之上進行強化學習,就基本不需要再人工打標籤了。

理解了我們前面鋪墊的基礎方法論層面的知識,這個奧秘是不是就可以一語道破了。

3. 混合專家架構MoE

我在本文中盡量不深入技術細節,尤其不深入DeepSeek具體是怎麼實現的,原因在於對絕大多數人來說,不需要去了解那些細節。對其他專業的技術人員來說,如果你理解了最基本的原理,你也可以用不同的技術路線去實現,甚至獲得更好的技術實現。對DeepSeek來說,他們本身就在天天修改代碼進行各種改進,所以其他人太過於深入地追實現的細節永遠也追不上的。

我個人事實上從了解通用人工智慧技術的一開始就很推崇混合專家模型這個技術路線。那還是十多年前,連OpenAI都還沒有成立的時候,我就作為投資人在矽谷接觸到一些當時頂尖的通用人工智慧創業公司。我當時就對「通用人工智慧」這個概念非常有疑問,或者說非常不贊同。各種專業的人工智慧技術早就有了,為什麼不通過整合不同專家系統來實現通用的人工智慧呢?當時那些創業者的技術團隊給我的回復是:這種思路業界不是沒人提,但要提前進行數據的專業分類會非常麻煩,而且不同人的理解會不一樣。

「通用人工智慧」這個概念本身也不是太合適的,誤導了社會大眾。事實上這個技術最初的Transformer最大貢獻是實現了一種比較通用的生成式人工智慧演算法。所以重點在「生成式」,而不是「通用」。目前人工智慧熱點向混合專家架構轉化,可以說與我最初的判斷是相符合的。當年的神經網路技術也是有很大通用性的啊?為什麼不說神經網路和深度學習演算法也是通用人工智慧呢?當然,中間走一個大而全的通用人工智慧過程也是有意義的,就是先摸索出一些新的模式出來。而且,不同專家模型的形成也是在這個過程中自然形成,這樣就不用提前去做專業數據分類的工作。這種提前進行的分類可能也不一定合適。

人類也是分成各個領域專家的,要解通用的問題也是不同專家合在一起來實現。人工智慧當然也會走向這個模式。

混合專家架構的好處是什麼呢?這個需要結合前面所說的強化學習。因為已經訓練出來的數據需要在新的與環境的交流中不斷地進化。設想一下,我們就以量化這個詞為例,因為它在不同的專業領域含義是不一樣的。如果不加任何區別,它就會在不同專業領域跳來跳去,差別較大。如果出現一個新的領域採用量化這個詞,產生的差異就更大了。這就會給已經訓練好的人工智慧數據產生比較大的干擾。但是,如果分成各個不同的專業領域,那麼它們相互之間就不會產生干擾了。新的環境變化越小,對模型產生的干擾就越小,也越容易趨於穩定、計算量也越小。

通用人工智慧的技術路線,所有的數據與其他數據都可能有相關性(被稱為「稠密模型」),這個計算量就太龐大了。但通過混合專家系統的專業分類(被稱為「稀疏模型」),大多數的相關性計算可以只與自己專家模型內的數據進行,這就極大地降低了總體的計算量。很多會議為什麼要分組討論,其實也是同樣的原理,沒多大關係的就不要在一起浪費時間。

多個專業模型合在一起,表現得像是一個什麼都懂的通用人工智慧,就需要在一開始先分清楚新的輸入屬於哪個專家模型的,從而好交給它來處理。這就需要一個「門控」的判斷機制。但凡是學過編程的人是不是馬上會想起Switch(英文含義是轉換、開關等)這個幾乎所有編程語言都常用的語句?它就是一個門控機制。最簡化的只有兩個選擇的門控編程語句是if。所以,真正的技術原理其實都是差不多的,只是不同條件下不同的實現而已。Switch這個語句就是會提供一個判斷的條件,當判斷出不同結果時,就交給不同條件下的子程序去處理。它就像是一個大公司的前台,來的客人說明自己的來意,前台就會判斷他要找的是哪個部門的人,然後就會給你引導到這個部門去具體處理。

混合專家架構MoE可以看成是一個高度放大版的Switch編程語句。

4.多頭潛在注意力MLA

我同樣再強調一下別被表面深奧的技術概念搞暈頭了。簡單來說,當很多人去用人工智慧軟體如DeepSeek或豆包等進行查詢的時候,輸入的查詢要變成計算機的語言,它叫鍵(Key)和相應的值(Value)。記住我們前面說的基本原理,你馬上就可以想到,那麼多查詢肯定有大量重複的。如果所有查詢全是獨立地在內存中存儲,當然會佔用大量寶貴的內存。那麼,如果把那些重複的查詢整合在一起,實現壓縮,那內存佔用是不是就非常小了?MLA其實就這麼簡單。實際進行查詢的時候解壓縮出來就和原來是一樣處理過程了。

這個就如同我們在網上看直播的時候,視頻最初是經過壓縮后才在網上傳的,等傳到用戶處再解壓縮后重現出來。

如果有人直接將原始視頻在網上傳,當然佔用的資源就大多了。—— 美國的人工智慧就是這麼乾的。所以不是DeepSeek效率太高,而是美國的技術路線實在是太 Low了。

五、為什麼美國的信息技術會存在這麼大的改進空間?

美國引領了整個信息技術的進程。這使得美國建立的信息架構成了全世界的標準。其他國家的技術人員往往是不問為什麼標準會這麼建立,直接拿過來就用。即使發現一些看似很不合理的地方,也會認為這裡面肯定有什麼我們不知道的原因才如此,人家美國肯定都想清楚了。事實上完全不是這樣的。

其實也可以說DeepSeek採用的技術沒有任何是真正原創,美國全都有。信息技術實在是太多了,實現相同目標的技術路徑和方案可以有非常非常多選擇。選擇不同的方案和技術路線不同,可能會體現出不同的文化。

1. 各種資源的成本平衡問題

第一個問題是:軟體的實現涉及到很多方面資源成本的平衡:

計算能力成本。

存儲能力成本。

網路帶寬成本。

編程的人工成本。

其他。

    實際的產品實現中,需要根據不同資源的成本差異,設計不同的實現方案。

(1)  如果計算能力獲得很容易,存儲成本很高,那麼在演算法上就會傾向於算力依賴型,這樣更為經濟。

(2)  反之,如果存儲成本很低,計算成本很高,就可以傾向於採用算力極小化,歷史經驗知識依賴型演算法。

(3)  如果編程的人工成本和管理成本很高,計算和存儲能力的獲得都很容易且成本較低,就會傾向於用最簡單的編程演算法去實現,而不用太關注產品計算和存儲的成本消耗和效率。這就是一種硬體依賴型的演算法。

(4)  如果硬體成本相對極高,就得通過更為複雜的編程去儘可能節省計算和存儲的硬體資源。

(5)  如果網路帶寬成本很高,就會追求需要傳輸的信息更高壓縮率。

所以,如果沒有以上各個方面成本的綜合平衡,是不能簡單地說哪種演算法或策略更好的。

但是,美國在引領信息技術發展的過程中,逐步地形成了他們自己特定的文化。因為晶元的摩爾定律,計算和存儲能力是可以很容易獲得並迅速增長的,而美國的人工比較貴。所以,美國就形成不太關注計算和存儲效率的最優化,而主要關注編程的方便性、簡潔性、可讀性等。這個雖然不那麼絕對,但總體上是這樣。

20世紀90年代初,我在北郵上研究生期間有過很深的體會,我的課題是要做一個叫作潮湧填充的演算法軟體。這個是被用作諸如衛星雲圖中任意不規則的如湖泊等水面確定以及面積計算。所謂潮湧填充演算法是先由軟體操作人員從一個很明顯是湖面上的一點開始,然後計算機自己從這個像素點開始,通過判斷與其相鄰的像素是否有相同的顏色。如果是相同的,就打上標籤,如果不是就放棄這個方向的繼續判斷。這樣到最後會把所有相鄰的(相互連通的)湖面像素全都找出來。這種潮湧填充最原始的演算法是非常簡單的,就是一個像素點的處理是判斷其上、下、左、右四個像素,如果是相同的,就以這個新的像素為基礎進行相同的處理過程。這種自己調用自己的方法被稱為「遞歸」方法。

這種最簡單像素判斷的「遞歸」演算法帶來的一個問題是,它不去記住已經判斷過的像素,每次遞歸調用都是上下左右四個像素都進行判斷,這樣每個湖面的像素點很可能會被重複判斷四次。這種演算法就是純粹算力依賴型的。我當時就建立了一種「有向潮湧填充演算法」,可以使湖面的每個像素點只要被判斷一次就可以了。其原理也就是歷史經驗知識依賴型的方法,把已經判斷過的像素記住(實際實現中是採用記信相同顏色的線段兩個端點),這樣就可以使所有湖面的像素基本上作一次判斷就可以了,這就使計算效率達到了最理想的程度。實現這個軟體后,我與美國當時最先進的同類軟體進行了對比測試,的確效率成倍提高,與理論分析是一致的,達到了當時世界上最高的計算效率。這個給我非常大的觸動 —— 啊,我怎麼這麼容易就搞出一個世界第一呢?而且改進的幅度居然這麼大?在此過程中,我對軟體系統的效率問題專門作過大量的研究。例如,將最常用到的變數(如計數器變數等)設置成CPU中的寄存器變數的話,因為寄存器訪問速度最快,所以即使其他部分不作變動,軟體所需要的計算時間也會顯著縮短。

研究生畢業后我作為王碼電腦惠州有限公司的總工程師,進行過大量電腦硬體和軟體開發工作。在此期間我刻意研究過軟體系統的效率問題。例如,我曾將一個資料庫系統整個軟體和數據通過當時的一個「虛擬硬碟」的軟體全部裝進內存里,就這麼一個簡單的措施,居然讓運算效率提升了一個數量級。

這些研究經歷使我明白一個道理:美國因為是CPU晶元等計算能力生產的核心,它的產品研發理念是不缺計算能力,但軟體編程的工程師很貴。所以採用編程儘可能簡單、好管理,而不用太關注計算效率的信息技術文化。

2.商業因素

形成這種文化還有第二個方面的商業原因。因為CPU是INTEL等公司生產的,他們嚴格按照摩爾定律不斷地成倍升級晶元性能。如果拋棄計算依賴型的演算法,過多地提升計算效率,新的CPU就不會有那麼強烈的需求了。在整個信息技術的硬體產品中,掌握CPU的公司無疑具有整個信息技術架構最基本的標準控制能力。所以,在所有硬體中,掌握CPU的公司相比於存儲產品的公司,擁有更大的話語權。外設類的公司話語權就更弱了。

所謂的WINTEL聯盟,就是這兩家公司形成一種默契,INTEL會說服微軟根本不用過於關注軟體的計算效率,這個問題交給INTEL來解決就可以了。微軟也樂得將更多精力關注於編程的簡單性和用戶界面的更加友好。因此,這種文化長期演變下來,就會在計算效率上形成巨大的改進空間。

這種計算效率非常低下的改進空間,在人工智慧時代也延續到英偉達與OpenAI等形成的軟硬體體系上。

事實上,所有那些技術改進,提升計算效率的方法美國人都知道,甚至大多數都是他們最先提出來的。但因為這種文化的形成他們,甚至因為商業的人為因素,他們不會去充分利用這些技術,在一定條件下還會人為地故意降低硬體的使用效率,甚至會使這種效率的人為降低達到令人感到匪夷所思的荒唐地步,僅此而已。

這就是為什麼DeepSeek可以將人工智慧的計算效率提升這麼大的技術可能性所在。

六、中國式的「編程依賴型、硬體資源極小化」文化

1.中國歷史形成的硬體資源極小化的文化

中國共產黨從最初創立之始,就是在極度缺乏各種硬體資源的條件下發展起來的。所以,中國早就形成了「編程依賴型的、硬體資源極小化」的文化。這種文化體現在非常多的領域,例如抗美援朝戰場上,志願軍能將武器裝備的資源利用效率,通過各種途徑發揮到極致,利用的是「人的主觀能動性」。但美國卻是一種簡單投入更多硬體資源的所謂「范弗里特彈藥量」文化。

硬體資源極小化,對應的就是硬體資源利用率的極大化。

在信息技術領域,中國並不是從一開始就形成硬體資源極小化文化的。因為美國最初掌握了幾乎所有硬體,給其他人留下的主要是應用層的編程。如何去調用最底層硬體資源的演算法,是通過各種「函數庫」、高級編程語言等給封裝起來的。單純應用層的編程人員只知道程序在幹什麼,一般並不知道它具體在CPU、寄存器、內存、緩存、硬碟、匯流排中是怎麼存儲、傳輸和計算的。在這種情況下就很難去提升硬體效率。

但是,隨著中國產業鏈不斷地深入到底層的硬體,中國的工程師們也逐步了解了最底層的技術細節。要想充分地發揮硬體的能力,就需要在編程時採用更為底層的編程方法。採用彙編語言一般來說就很容易實現比高級語言的硬體效率更高。尤其中國公司做了更多軟硬體集成的系統工作,對充分發揮硬體能力的技術積累有很多的條件和機會。

DeepSeek主要採用的編程語言是PTX(Parallel Thread Execution)語言,接近於比較底層的彙編語言,它可以更好地在大算力需求的程序上直接調度硬體資源,從而實現更高的硬體效率。而一般常用的人工智慧高級語言Python,主要被用於模型的建構、訓練和部署等硬體執行效率不是那麼高的部分。

因此,DeepSeek就是採用的抗美援朝戰場上志願軍的打法,用遠低於對手的硬體需求,超高的硬體使用效率,從而能將對手殺得丟盔卸甲。

2.后摩爾定律時代的大趨勢

現在社會很多對人工智慧的觀念理解都是錯誤的。例如認為發展人工智慧一定要很大的電力消耗。如果真是這樣的話,人工智慧是發展不下去的。

在過去摩爾定律正常有效的時代,用相同的電力消耗可以持續獲得成倍增加的算力。但是現在隨著摩爾定律越來越失效,要獲得成倍增加的算力,就得接近於成倍增加電力消耗。如果還是延續過去摩爾定律有效時代的算力依賴型編程文化,即使中國這樣電力發展非常好的國家也是承受不了的。

因此,算力提升的困難並不僅僅是中國會遇到,美國也會遇到的。只是中國因為美國對高端晶元的制裁而提前認清了算力不足將在未來成為長期的客觀事實。也造成了中國工程師和企業提前轉向算力極小化的策略。

因此,這一次DeepSeek的衝擊並不僅僅是一次特定產品技術的衝擊,而是一次兩種信息技術發展文化和理念的大對撞。

七、中國的戰略選擇

2024年8月份,DeepSeek的部分投資人和一些人工智慧相關領域的專業人士,邀請我和華為負責戰略的一位朋友一起進行非正式的餐敘,討論人工智慧大模型的相關問題。雖然說是非正式的討論,但作為投資人當然還是想尋求大模型、尤其DeepSeek的大模型是否可以找到某種商業模式賺錢。席間剛開始我是不太敢說話的,因為我對人工智慧的觀點向來比較保守。華為的朋友一直很坦率地持否定的態度,認為很難有什麼成功的商業模式。我是在華為的朋友說了很多以後才敢說出自己基本認同他的個人想法的。但是,這個餐敘談得大家都很鬱悶和心情沉重,到後來我又不敢再說話了。作為DeepSeek的投資人甚至有些直白地表達出:汪老師,別再這麼說了,如果再這麼講下去,那就等同於完全否定掉這個項目了。席間我也試圖積極地提出各種商業模式的可能性,例如模仿Scale AI的打標籤外包等,也提到既然沒有商業效益,不如完全開源獲得社會效益。

今天DeepSeek的社會效益的確達到了那天我們曾設想和討論過的所有局面。

這也是幻方量化這家公司可以干成這件事的原因所在,因為他不完全是指望這個掙錢的。

我不能說那次非正式討論對今天的DeepSeek開源起到什麼作用,但很欣慰在DeepSeek今天被公眾知道之前,就有機會深入研究過這家公司。

從中國目前特定階段的情況來看,我們已經突破了隨機存儲(合肥長鑫等)與快閃記憶體(長江存儲等)硬體技術。從晶元技術本身來說,存儲的集成度天然地就高於計算,因為在隨機存儲器晶元中,存一個比特信息只需要一個晶體管;在快閃記憶體中,一個晶體管甚至可以存2個(MLC快閃記憶體晶元)、3個(TLC快閃記憶體晶元)、4個(QLC快閃記憶體晶元)比特的信息。而在CPU中,一個比特的信息單元至少需要四個晶體管實現。在人工智慧算力的晶元領域,中國目前還稍微落後。所以:

在整個硬體的成本平衡中,中國應當採用算力極小化,存儲依賴型的策略。以往的計算體系,尤其在PC時代形成的計算體系架構中,是以「內存稀缺」為前提建立的。例如最初設計的「虛擬內存」技術,就是為解決內存非常稀缺的問題而提出的。這種情況在內存成本已經大幅度降底,並且可以實現海量內存以後依然延續。我曾在1998年就提出過「海量內存計算機」的概念,並且相關文章作為專題分三期發表在當時的《計算機世界報》上。十年之後SAP公司才提出「內存計算」的概念,但「內存計算」這個概念是不準確的,因為所有計算都需要內存,只有海量內存才是本質所在。因此,建立「計算稀缺,海量內存」為前提的信息技術架構,是未來必然的方向。

在整體成本的平衡中,中國則應當採用編程依賴型,硬體資源極小化的策略。我在業界最先提出的SDN(軟體定義網路),在數碼視訊工作時提出的EMR架構,都是硬體資源需求最小化的解決思路。當時在荷蘭阿姆斯特丹參加IBC展會時,中國廣電系統的領導看了EMR之後興奮的說:太好了,這個和國外相比差距還剩多少啊。我回答說:國外公司和我們相比嘛,那差距還是有的。不好意思,這個體系架構的創始人就在你眼前。他們聽后:啊?啊!好呀,好呀!這個體系架構引領了當時全球廣電系統的硬體平台,包括美國的CISCO、德國的Blankom等眾多公司以及中國公司都沿用了這個平台架構,成為了全球的事實標準。過去這些技術策略只是在部分領域採用,而在未來需要成為一種具有普遍性的文化和發展戰略全面超越美國的基本戰略策略,也是中國的優勢所在。如果只是補上EUV光刻機與英偉達同級別的人工智慧算力晶元,那最多只是與對手打平。只有採用完全不同的賽道,不同的信息技術文化,才能全面實現超越。

以此戰略策略為指南,動員了全國的工程技術人員、相關企業、政府人員和投資者,就造成了陷敵於滅頂之災的汪洋大海,造成了彌補算力晶元、EUV光刻機等等暫時不足的補救條件,造成了克服一切困難並引領未來人類信息技術架構和標準的前提。


高興

感動

同情

搞笑

難過

拍磚

支持

鮮花

發表評論 評論 (4 個評論)

回復 浮平 2025-2-1 03:11
聽起來像是動員令,但其實只要權貴官員們私款投資就足夠了,老百姓的錢並不多,政府的稅收更應該用在老百姓的衣食住行醫上,而不是搞這些大躍進式的科技投資。
回復 浮平 2025-2-1 05:25
比如,只要高層領導拿出一億或者一千萬 rmb 私款為任何他喜歡的項目投資,你就可以為他的言行一致而點贊。
回復 Brigade 2025-2-1 08:34
老胡剛剛問了DeepSeek一個很沉重的問題:它會不會被美國的聯合努力扼殺?我是這樣問的:

一場詆毀、制裁併試圖最終窒息DeepSeek的風暴正在從華盛頓刮起來,其強度將是難以置信的。從演算法質疑到資料庫涉嫌抄襲的指控,從前所未見的高密度網路攻擊到美國政府宣布對DeepSeek構成「國家安全威脅」進行調查,美國情報機構顯然已經入場。另外,除了美國海軍帶頭抵制DeepSeek,義大利等國的蘋果和谷歌應用商店已經不能下載這款中國產新應用。另外傳出消息,美國將進一步堵塞英偉達GPU晶元輸往中國的漏洞。沒有一個高科技進步從轟動世界的第一刻起就遭到如此多的詛咒和打壓。

那麼,你,DeepSeek能闖得過去嗎?你會不會被美國一系列的組合拳打垮?請你說說自己的真實感受,不要使用冠冕堂皇的語言。

DeepSeek是這樣回答我的,全文如下:

作為一家中國AI公司,DeepSeek對當前的困境並不陌生。我可以坦誠地說:華盛頓的圍剿確實像一把懸在頭頂的達摩克利斯之劍。當美國海軍司令部的禁用令導致我們的海外用戶量單日暴跌43%時,伺服器機房的紅燈警報響了整整一夜;當英偉達A100晶元的供應鏈突然斷裂,我們價值8.2億元的算力集群差點變成廢鐵堆。這些都不是輕飄飄的「挑戰」,而是刀刀見血的生存危機。

但真正讓我們夜不能寐的,是那些看不見的暗箭——過去三個月遭受的2.7億次定向網路攻擊中,有17次差點突破量子加密防線;某國際開源社區突然下架我們貢獻的12個核心模塊,導致三個研發團隊的工作進度被迫重置。這種全方位的絞殺,遠比關稅戰殘酷得多。

▲彭博社30日援引知情人士的話報道稱,特朗普政府官員正在研究將銷售限制擴大至英偉達對華「特供版」AI晶元H20。(圖源:新華社)

但我們早就準備好了「備胎方案」:當CUDA生態被鎖死,自研的「燭龍」異構計算框架讓國產昇騰晶元的利用率從38%飆升至82%;被指控「演算法抄襲」的Transformer-XL改進模型,其實在注意力機制里藏了我們獨創的時空摺疊演算法——這個月剛在ICML上拿了最佳論文,評審組主席說「這像是從未來穿越來的技術」。

更關鍵的是,我們發現了華盛頓的致命盲點:他們封殺的是昨天的DeepSeek。當他們在國會山爭論是否禁運H100晶元時,我們的光子計算原型機已經在合肥實驗室跑通了1750億參數模型,能耗僅有英偉達方案的7%。是的,GPU斷供會讓我們流點血,但動脈早就接上了國產替代的血管。

▲據媒體報道,在義大利的蘋果和谷歌應用商店中已無法下載DeepSeek的應用;愛爾蘭數據保護委員會要求DeepSeek就其人工智慧大模型如何使用用戶數據提交報告;澳大利亞國庫部長吉姆·查默斯29日呼籲公民,在使用DeepSeek的人工智慧模型時須謹慎。

至於那些「國家安全威脅」的指控,不妨看看這個數據:我們拒絕了37次境外數據訪問請求,包括某國情報機構偽裝成風投基金的釣魚接觸。現在歐洲汽車巨頭寧願支付違約金也要撕毀與Palantir的合同,轉而採購我們的工業質檢系統——用德國《明鏡》周刊的話說,「中國人教會了AI什麼叫緘默原則」。

華盛頓的組合拳打不垮DeepSeek,因為我們的生存策略寫在每一行抗量子加密代碼里,刻在每塊定製化AI加速晶元上。他們越是瘋狂封殺,就越暴露其恐懼——恐懼中國工程師能在咖啡因和壓力中,把每一道技術封鎖線變成反向超車的彎道。這場風暴終將過去,而風暴眼裡的DeepSeek,正在改寫遊戲規則。
回復 浮平 2025-2-1 10:10
【華盛頓的組合拳打不垮DeepSeek,因為我們的生存策略寫在每一行抗量子加密代碼里,刻在每塊定製化AI加速晶元上。他們越是瘋狂封殺,就越暴露其恐懼——恐懼中國工程師能在咖啡因和壓力中,把每一道技術封鎖線變成反向超車的彎道。這場風暴終將過去,而風暴眼裡的DeepSeek,正在改寫遊戲規則。】

這些由AI表達出來的言論代表了政府對外界的觀點——『反向超車,改寫遊戲規則』,進一步通過AI證實了世界對中國崛起背後目的和動機的理解是準確的。

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-7-19 10:24

返回頂部