倍可親

深度求索(DeepSeek)的v3模型簡介

作者:國華B  於 2025-1-27 22:56 發表於 最熱鬧的華人社交網路--貝殼村

通用分類:政經軍事|已有12評論

深度求索(DeepSeek)最新r1模型是Davos經濟論壇的熱門話題,也是今天(星期一)美國股市科技股大幅跳水的原因。筆者月初的一篇博文曾介紹過深度求索的DeepSeekv3模型,對感興趣讀者了解DeepSeek的背景有一定幫助。以下為題名「普京、施密特和雷蒙多瞄準中國AI」的博文原文。 ------

2025年第一天,克里姆林宮網站刊載了俄羅斯總統普京的指示,要俄羅斯政府和最大銀行「確保與中華人民共和國在人工智慧領域的技術研發方面進一步合作。」 (下圖 KAOHOOINTERNATIONAL)換句話說,普京要求俄政府和最大的聯邦儲蓄銀行通過「合作」來習中國大陸在AI領域的專長。估計普京的這一指示會讓許多俄羅斯人,尤其是精英階層人士汗顏。畢竟,聯邦儲蓄銀行在俄羅斯人工智慧領域處於領先位置。更重要的是,中華人民共和國自建國伊始,便是俄羅斯的前身蘇聯的小老弟,一直接受蘇聯的援助,在蘇聯的支持下發展壯大的。曾經有這麼一句流傳甚廣的話「蘇聯的今天,就是我們(中國)的明天。」就在30多年前的20世紀90年代,俄羅斯的戰鬥機和驅逐艦還被中國軍迷視為需要追趕的先進大殺器。要知道自沙俄以來,俄羅斯、前蘇聯和接替蘇聯的俄羅斯的人民 – 從普通老百姓到社會精英乃至皇親國戚 – 都對自己生產的物品充滿信心,除非同類物品來自西邊:西歐和美國。可現在得屈尊向昔日壓根兒瞧不上眼的小弟學習,你讓曾經的老大哥情何以堪?但形勢比人強。自己技不如人,美國西方又進行制裁,轉向中國對俄羅斯來說不失為一項最好的選擇。普京能如此謙恭地要俄政府和領先的企業學習中國大陸的人工智慧還有一個原因,那就是美國人都承認中國大陸的AI優秀,且對中國人在AI領域取得突飛猛進的發展感到忌憚。

筆者曾在不久前討論美中人工智慧競爭的博文中提到,前谷歌董事長和首席執行官、前人工智慧國家安全委員會主席施密特(Eric Schmidt)在哈佛大學和電視專訪中均對中國大陸AI的迅猛發展勢頭大喊「狼來了。」 2024年12月下旬接受ABC的斯蒂芬諾普洛斯(George Stephanopoulos)採訪時,施密特更警告美國政府和AI業界中國人正以「驚人的速度」趕上美國的領先AI技術。

施密特有理由對中國大陸在人工智慧領域的進步感到壓力 – 大陸AI公司深度求索2024年12月26日新發布的DeepSeek 3 大語言模型的性能與其競爭對手相當甚至更勝一籌,但成本更低,而且免費使用。CNBC的技術平台專題主持博薩(Deirdre Bosa 下圖 CNBC)報道說,

基準測試結果顯示DeepSeek 3 大語言模型與美國同類facebook的Llama3.1、OpenAI的ChatGPT4和Anthropic的Claude 3.5 Sonnet的表現難分伯仲,而DeepSeek 3在某些地方還勝過Llama3.1和ChatGPT4,如邏輯推理、數學能力、代碼生成及軟體工程能力等的細分領域(下圖 huxiu)。

這裡有必要進一步分析DeepSeek 3.0大語言模型的性能,以更好理解中國大陸在AI突破的重大意義。通過下面這張測試結果圖表,可以發現DeepSeek 3.0(藍柱)與Qwen2.5大模型(阿里巴巴的通義千問2.5)、Anthropic的Claude 3.5 Sonnet大模型、Meta的Llama3.1大模型、及OpenAI的ChatGPT4大模型之間的差距(下圖 21jingji)。除了在英文(English)的6個子項,代碼(Code)的2個子項和中文(Chinese)的1個子項外,DeepSeek 3.0在執行大多數任務時的表現都要優於其它大模型。當DeepSeek 3.0執行數學和程序編碼時,它的表現更為突出,有時可以說是「遙遙領先」。如在執行數學任務時,無論是美國數學邀請賽(AIME 2024, MATH)和數學基準500題(MATH-500),還是中國北方數學奧林匹克(CNMO 2024),DeepSeek-V3都大幅超過了其他所有開源(Llama3.1和Qwen2.5)和閉源模型(Claude 3.5 Sonnet和ChatGPT4)。在編碼測試中,DeepSeek 3.0也在7個子項中勝出5項(三哥要著急了,因為許多外包給三哥的基本編碼任務,現在可由AI代行,且既快又省還清晰準確)。

尤其難能可貴的是,DeepSeek 3取得如此令人咂舌的突破,僅用了不到600萬美元(官方文件說是557.6萬美元),使用的是英偉達特供中國大陸的H800閹割版GPU晶元(下圖 CNBC)。而Llama3.1和ChatGPT4則耗資上億乃至幾億美元,使用的更是英偉達(當時)最強晶元。就這樣,DeepSeek 3硬是僅用了2048塊H800 GPU晶元,耗時2個月總計278萬GPU小時取得了對其它主流大模型的趕超。與此相對照,Meta則用了3080萬GPU完成對Llama3.1的訓練。由於成本低,DeepSeek 3的使用費用也屬最低之列 – 每100萬Token(字)0.48美元,遠低於主流大模型,質量卻不相伯仲。DeepSeek 3這是要將AI的應用做成白菜價啊。英偉達對其GPU晶元有了危機感,因為DeepSeek 3通過數據和演算法的優化,而非增加硬體算力(GPU晶元)的投入,就實現了較好的模型效果。當然,DeepSeek 3也有一些短板,如比其他主流大模型的響應時間要慢(約0.9秒)。DeepSeek 3的一個主要短板就是還不能創作圖片,製作PPT等。此外,DeepSeek 3的上下文窗口為13萬Token(字),要小於平均水平。這意味著當13萬Token(字)用完時,用戶得重新開啟一個窗口,繼續中段的工作。更通俗的說,一段問答對話或一項編碼任務在進行中忽然中斷了,因為13萬Token(字)用完已耗盡。於是,得重新開啟窗口以便完成對話或編碼任務。盤古智庫學術委員、未來實驗室首席專家胡延平認為,DeepSeek 3體現了「非常中國」的工程能力,通過穿小路走捷徑實現了追趕,但尚無底層原理創新。好吧,咱接著說說這與雷蒙多女士有何關係。

正是看到中國大陸在美國的嚴密封鎖制裁下取得的驚人突破,對華科技制裁鷹派代表、即將卸任的商務部長雷蒙多(Gina Raimondo)對《華爾街日報》說,美國對中國大陸的半導體晶元封禁是「徒勞的」,出口管制只能暫時降低中國趕超美國的速度。(下圖 X)她(雷蒙多)終於發現,「打敗中國的唯一方法就是保持領先,…… 我們必須跑得更快,創新超逾他們。」

不在其位,不謀其政。在行將解甲歸田之際,其言也善啊。筆者非常同意雷蒙多部長的話,並且在過去發出的多篇博文中均提倡美國高科技企業應當走良性循環的路 – 將已有的高科技產品高價出口到別的國家,再用獲得的豐厚利潤研發出更新更好的產品。美國得靠自身的真本事,靠不斷創新來保持對包括中國大陸在內的世界領先。不思進取貪圖享受生活又希望別人永遠安於貧困落後,想要不付出努力或偷奸耍滑的躺贏,或許短時間內能行。但時間長了,烏龜都能超兔子,更別說本身就速度不慢、每年畢業那麼多STEM專業的中國大陸了。為了美好生活,這些理工生的卷可是名聞遐邇。中國《易經》里有句話是這麼說的:「天行健,君子以自強不息;地勢坤,君子以厚德載物」。與中國大陸過招4年,咱雷蒙多部長算是悟透了。嗨,政府應當讓我進入智囊團,或者某智庫應收我入庫 – 咱幾年前就提出了商務部長剛剛認清的形勢。(smile)

參考資料

胡延平. (2025). 胡延平:為什麼DeepSeek-V3的火爆不宜過高評價? 新浪財經. 鏈接 https://finance.sina.cn/stock/ggyj/2025-01-02/detail-inecqsvs9677357.d.html?oid=%E7%9A%87%E5%86%A0%E7%99%BB3%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F%E2%86%92TG%E5%BE%AE%E4%BF%A1hga1199%E2%86%925rIn&vt=4

Haski, P. (2025). DeepSeek 3: How China's New AI Is Challenging U.S. Tech Dominance. WORLDCRUNCH. 鏈接 https://worldcrunch.com/tech-science/deepseek-chatgpt-china-response 

Mehrara, M. (2025). China and Russia forge major tech collaboration to challenge US. Newsweek. 鏈接 https://www.newsweek.com/china-russia-forge-major-tech-collaboration-challenge-us-2008502 

Mowshowitz, Z. (2025). DeepSeek v3: The Six million dollar model. thezvi. 鏈接 https://thezvi.substack.com/p/deekseek-v3-the-six-million-dollar 

Reuters. (2025). Putin orders Russian government and top bank to develop AI cooperation with China. 鏈接 https://www.reuters.com/technology/artificial-intelligence/putin-orders-russian-government-top-bank-develop-ai-cooperation-with-china-2025-01-01/ 


高興

感動

同情

搞笑

難過

拍磚

支持
1

鮮花

剛表態過的朋友 (1 人)

發表評論 評論 (12 個評論)

回復 浮平 2025-1-28 00:00
【美國得靠自身的真本事,靠不斷創新來保持對包括中國大陸在內的世界領先。不思進取貪圖享受生活又希望別人永遠安於貧困落後,想要不付出努力或偷奸耍滑的躺贏,或許短時間內能行。但時間長了,烏龜都能超兔子,更別說本身就速度不慢、每年畢業那麼多STEM專業的中國大陸了。為了美好生活,這些理工生的卷可是名聞遐邇。中國《易經》里有句話是這麼說的:「天行健,君子以自強不息;地勢坤,君子以厚德載物」。與中國大陸過招4年,咱雷蒙多部長算是悟透了。】

中國科學家真了不起,祝賀!DeepSeek 加油啊,邏輯推理功能強大,儘快建立一致的是非善惡倫理道德言行底線判斷依據,解決社會道德崩潰和貧富及各方面兩級分化的社會矛盾,比如,現在的醫藥改革和持續的腐敗問題,朝社會的平等公正,提升人權保障方向進步,幫助管理階層事先分析出政策的利弊概率,減少誤判和自相矛盾的錯誤,以及在國際上被道德批評的問題。 避免 AI 被集權者過於應用在收放自如控制民眾自由,降低人權標準的方面,或者控制民眾平等使用 AI 進行創新發明。

別光顧著和雷女士較勁兒。
回復 浮平 2025-1-28 00:48
AI 會帶來一場價值觀革命。政治至上 vs 人權至上。 前者是為等級觀的特權階層服務;後者是為平等觀整體人性利益服務。也是在判斷依據上主客觀程度之別的方法革命, 人治與法治的根本區別。
回復 Wuming123 2025-1-28 01:00
浮平: 【美國得靠自身的真本事,靠不斷創新來保持對包括中國大陸在內的世界領先。不思進取貪圖享受生活又希望別人永遠安於貧困落後,想要不付出努力或偷奸耍滑的躺贏,
我還以為你的賬號被盜了,原來還是狗改不了吃X!Deepseek你也能扯到中國政治!
回復 浮平 2025-1-28 01:02
Wuming123: 我還以為你的賬號被盜了,原來還是狗改不了吃X!Deepseek你也能扯到中國政治!
AI 會告訴你人身攻擊是不道德的惡行。政治影響到每個人生活的方方面面,AI 的大數據模型更是建立在人的社會行為基礎上,依然會影響到每個人生活的方方面面。但有文明政治與流氓政治之別,能認清這個區別就超越了政治領域而進入了哲學價值觀應用的領域。

政治是與利益相關的領域,哲學是與政治方法相關的言行規範領域。馬列毛的教育從小就混淆了這兩個領域而進入哲政混合,德政混合的主觀政治高於一切的降維洗腦空間。優秀的 AI 任務艱巨,得從這種混合混亂態逆向分類,不夠優秀的 AI 同時也會面臨被淘汰的風險。各自的思維方式更會被觸動和推動,也可能會感覺被淘汰,依 IQ, EQ, AQ 的綜合指數而定。

可以通過價值觀一致的 ChatGPT 提升對政治和哲學領域區別的認知。
回復 rfw1972 2025-1-28 01:21
浮平: 【美國得靠自身的真本事,靠不斷創新來保持對包括中國大陸在內的世界領先。不思進取貪圖享受生活又希望別人永遠安於貧困落後,想要不付出努力或偷奸耍滑的躺贏,
全世界的中國人都為中國的進步和發展高興,以浮萍為代表的入籍美人抑鬱焦慮憤懣
回復 浮平 2025-1-28 01:38
rfw1972: 全世界的中國人都為中國的進步和發展高興,以浮萍為代表的入籍美人抑鬱焦慮憤懣
任何人能表達真實的高興都是好事,包括自嗨。

而不斷採用變化馬甲的手段,負面攻擊貶低他人的邏輯理性觀點,恰好表達出自身不自信的情緒和認知層次不夠的 frustration。

玩弄小聰明,投機取巧,自私虛假的惡意政治動機和行為 ---- 將本人依據你長期攻擊人的言論事實而提供給你參考的心理諮詢內容中的語言抄搬幾個字反過來憑空亂用,都反應出你自身的綜合問題。

self-destructive behavior.

考取了重點大學,在業務上拼不過其他人,被淘汰之後不服氣不平衡,想藉助於集體主義和政治偏見來找到實現自我的價值得到尊重,但用的是損人害己的自毀方法,這樣就會因為不道德的行為而更得不到尊重。只要動機是想損害他人的惡意,無論手段如何變換,都會大概率的產生負反饋效應。
回復 rfw1972 2025-1-28 01:53
浮平: 任何人能表達真實的高興都是好事,包括自嗨。

而不斷採用變化馬甲的手段,負面攻擊貶低他人的邏輯理性觀點,恰好表達出自身不自信的情緒和認知層次不夠的 frust
我說你吃屎了么,怎麼又攻擊你了泥
回復 浮平 2025-1-28 02:00
rfw1972: 我說你吃屎了么,怎麼又攻擊你了泥
你的言行反應出你長期損人利己的惡意動機和手段。你在想方設法死纏亂打,長期用人身攻擊來針對言論者,毀壞他人,而不是理性文明的,依據事實和邏輯來分析討論公事議題。這是文革餘毒的行為。不要為了個人ego或者政治目的去敗壞墮落自己的品德,那樣你什麼都得不到,即爭奪不了話語權(網民都已經有了平等表達觀點的權利,不需要爭奪),即使你是大外宣的代理人,也得不到尊重,只會不斷被本人批評教育,因為這是在文明社會。

當你脫掉馬甲之後,露出你的真實身份時,你知道自己的言行哪些是出自惡意,故意攻擊侮辱人,扭曲誇大事實的不道德,不應該的行為。不要利用馬甲掩蓋這種虛偽個人品質。
回復 七把叉Archie 2025-1-28 08:26
軟硬體相輔相成,哪一方都不能太弱。中國優秀的軟體工程人員,發揮聰明才智,將軟體開發做到極致。但由此認為,中國將一騎絕塵,徹底超前,恐怕是過於樂觀了。就如同一條高速公路,可以承載200公里車速的車輛(硬體),可是汽車最快只能跑120公里。那麼需要發展汽車本身速度。而當汽車技術已經達到250公里,那麼顯然道路質量需要提高。美國只是託大,以為晶元夠好就足夠,忽略了語言的精簡快捷,
回復 rfw1972 2025-1-28 20:57
浮平: 你的言行反應出你長期損人利己的惡意動機和手段。你在想方設法死纏亂打,長期用人身攻擊來針對言論者,毀壞他人,而不是理性文明的,依據事實和邏輯來分析討論公
你太誇張了吧,你總象個鬥雞反應出什麼,死纏亂打的應該是你,不信往下看。
回復 浮平 2025-1-28 22:50
rfw1972: 你太誇張了吧,你總象個鬥雞反應出什麼,死纏亂打的應該是你,不信往下看。
你不是科大理工男喜歡寫詩嗎,幹嘛總在改行?

今天過春節了,原創打油詩 ----

新年到,湊熱鬧,
春聯滾滾歌如潮,
餃子年年香噴噴,
文化傳承世人曉。

原創對聯:淺灘蛇舞添新奇   深海龍騰獻大禮

」深海龍騰「 --- DeepSeek

祝你蛇年吉祥安康!
回復 rfw1972 2025-1-28 22:55
浮平: 你不是科大理工男喜歡寫詩嗎,幹嘛總在改行?

今天過春節了,原創打油詩 ----

新年到,湊熱鬧,
春聯滾滾歌如潮,
餃子年年香噴噴,
文化傳承世人曉。

原創對
滿滿的正能量,你也新年快樂

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-3-11 19:12

返回頂部