「縮小中美AI差距至3個月」,DeepSeek深夜更新
來源:倍可親(backchina.com)據新加坡《聯合早報》網站3月25日報道,中國初創企業零一萬物首席執行官李開復說,在人工智慧(AI)發展方面,中國已將與美國在某些領域的差距縮小至僅3個月,因為中國初創企業深度求索(DeepSeek)等公司已經研究出如何更有效地使用晶元和應用演演算法。
李開復是全球AI領域的重要人物,曾擔任美國搜索引擎巨頭谷歌公司的中國區負責人。李開復在香港接受路透社採訪時說,DeepSeek的推出表明,中國已經在基礎設施軟體工程等領域取得領先地位。
今年1月,DeepSeek推出一款AI推理模型,震驚了全球AI行業。該公司稱,該模型採用的晶元技術較落後,開發成本也低於西方競爭對手。這挑戰了美國制裁將阻礙中國AI行業發展的假設。
李開復說:「之前我認為差距是6到9個月,在各方面都落後。現在我認為,在一些核心技術上可能落後3個月,但實際上在某些特定領域領先。」
▲資料圖片:用戶在DeepSeek手機客戶端上提問(新華社發)
李開復形容華盛頓的半導體制裁是一把「雙刃劍」,既帶來了短期挑戰,也迫使中國企業在約束下進行創新,並提到中國企業如何開發自己的演演算法。
他說:「DeepSeek能夠通過一種新的強化學習方式來弄清楚思路鏈,這要麼是在趕超美國,要麼是在快速學習,甚至可能更具創新性。」他指的是DeepSeek模型在給出答案之前,向用戶展示推理過程。這一功能由美國AI巨頭OpenAI率先開發,但尚未向用戶發布。
2022年底OpenAI推出聊天機器人ChatGPT后不久,中國科技行業就加入了開發生成式AI的全球競賽,但直到DeepSeek推出前,中國許多科技領袖都說,他們遠遠落後於西方同行。
新聞多一點
編程能力大大提升,DeepSeek發布更新版V3模型
據新加坡《聯合早報》網站3月25日報道,中國初創公司深度求索(DeepSeek)發布了V3模型更新,加強了模型的編程能力,顯示這家公司希望在人工智慧(AI)領域的激烈競爭中保持領先優勢。
綜合彭博社和科技博客網站「風險投資節奏」網站的報道,AI開源模型DeepSeek-V3的更新版本V3-0324於24日深夜在AI開源平台低調上線。
深度求索沒有為此次版本更新發布任何公告,延續了該公司的低調風格。
初代DeepSeek-V3發佈於2024年12月26日,這款模型自上線后便以高性價比火速「出圈」。根據官方技術論文披露,DeepSeek-V3模型的總訓練成本約為557.6萬美元,而OpenAI的GPT-4o等模型的訓練成本約為1億美元。
更新后的DeepSeek-V3模型大小為641GB,模型參數為6850億。與V3相同,V3-0324模型採用混合專家(MoE)架構,並開源允許自由商用。
此次更新的最大亮點是編程能力的優化。有網民使用V3-0324模型編寫800多行代碼,全程沒有出現任何故障。
有AI研究者在社交平台X上發布評測指出,V3-0324模型在所有基準測試中都取得巨大進步,可能已超越美國Anthropic公司的Claude 3.5 Sonnet,成為最強大的非推理模型。Claude 3.5 Sonnet是當前最受認可的商業AI模型之一。
讓更多科技博主關注的是,V3-0324模型可直接在消費級硬體上運行,如搭載蘋果M3 Ultra晶元的Mac Studio上,而不需要動輒千瓦級別功耗的數據中心。
M3 Ultra晶元在進行推理時的功耗不到200瓦,意味著V3-0324模型的部署和運營門檻已大大降低。
「風險投資節奏」網站報道認為,DeepSeek-V3-0324模型的發布,可能預示著DeepSeek-R2即將到來。DeepSeek一貫先推出基礎模型,再推出專門優化推理能力的版本,如V3后不久發布的R1。
路透社今年2月引述消息稱,DeepSeek正加快推出R1模型的後續產品R2。據悉,DeepSeek-R2原計劃在5月初發布,但公司現在希望儘早推出。
「風險投資節奏」網站認為,DeepSeek-R2的發布,可能成為直接挑戰GPT-5的競品。