中國AI初創公司DeepSeek是如何與矽谷巨頭競爭的

京港台：2025-1-24 10:25| 來源：紐約時報 | 評論( 3 )條 | 我來說幾句

來源：倍可親(backchina.com)

　　聖誕節的第二天，一家名為深度求索(DeepSeek)的中國小型初創公司發布了一個新的人工智慧系統，其功能可與OpenAI和谷歌等公司的尖端聊天機器人相媲美。

　　能做到這點本已是一個里程碑。但這個名為DeepSeek-V3的大模型背後的團隊描述了一個更大的進步。深度求索的工程師在介紹他們如何構建這個大模型的研究論文中寫道，他們在訓練該系統時只用了領先人工智慧公司用的高度專業化計算機晶元的一小部分。

　　這些晶元是美中激烈技術競爭的核心。隨著美國政府努力保持本國在全球人工智慧競爭中的領先地位，它正在試圖對能出售給中國以及其他競爭對手的高性能晶元（如矽谷公司英偉達生產的那些）進行限制。

　　但DeepSeek大模型的表現讓人們對美國政府貿易限制的意外後果產生了質疑。美國的出口管制措施已迫使中國研究人員使用網際網路上免費提供的各種工具來發揮創造力。

　　據美國人工智慧公司一直使用的行業基準測試，DeepSeek聊天機器人能回答問題、解決邏輯問題，並編寫自己的計算機程序，其能力不亞於市場上已有的任何產品。

　　而且它的造價很低，挑戰了只有最大的科技企業（它們全都在美國）才能製造出最先進的人工智慧系統的普遍觀念。中國工程師稱，他們只花了約600萬美元的原始計算能力就訓練了新模型，不到科技巨頭Meta訓練其最新人工智慧模型所耗資金的十分之一。

　　「有600萬美元資金的公司在數量上遠遠多於有1億美元或10億美元資金的公司，」風險投資公司Page One Ventures的投資人克里斯·尼科爾森說道，他主要投資人工智慧技術。

　　自從OpenAI 2022年發布了ChatGPT，引發人工智慧熱潮以來，許多專家和投資者曾得出結論認為，如果不投入數億美元購買人工智慧專用晶元的話，沒有公司能與行業領軍者競爭。

　　世界領先的人工智慧公司用超級計算機來訓練它們的聊天機器人，這些超級計算機需要多達1.6萬個晶元，甚至更多。但DeepSeek的工程師卻說，他們只用了約2000個英偉達生產的專用晶元。

　　中國進口晶元受到限制，迫使DeepSeek工程師「更有效地訓練大模型，以讓其仍有競爭力」，喬治華盛頓大學專門研究新興技術和國際關係的助理教授傑弗里·丁（音）說。

　　本月早些時候，拜登政府頒布了旨在阻止中國通過其他國家獲得先進人工智慧晶元的新規則。新規則出台前，美國已採取了多輪限制措施，阻止中國公司購買或製造尖端計算機晶元。特朗普總統尚未表明他是否會繼續實施或取消這些措施。

　　美國政府一直試圖阻止中國公司獲得先進晶元，因為擔心這些晶元可能用于軍事目的。作為回應，中國的一些公司囤積了大量這類晶元，另一些公司則在蓬勃發展的黑市採購走私晶元。

　　DeepSeek由一家名叫幻方的量化股票交易公司運營。到2001年，它已將利潤投入購買數千枚英偉達晶元，用於訓練其早期模型。公司沒有回復記者的置評請求，它在中國有一種名聲，那就是以高薪和讓人們能夠探索最感興趣的研究課題為承諾，吸引了剛從頂尖大學畢業的人才。

　　曾參與早期DeepSeek大模型開發的計算機工程師汪子涵（音）說，公司也雇傭沒有任何計算機科學背景的人幫助該技術理解並生成詩歌，並在做難度極大的中國高考試卷時獲得高分。

　　DeepSeek不製造任何消費者產品，而是讓工程師全神貫注地做研究。這意味著其技術不受中國有關人工智慧法規中最嚴格部分的限制，中國要求面向消費者的技術必須遵循政府對信息的控制。

　　領先的美國公司繼續推動人工智慧的發展。去年12月，OpenAI公布了一款性能超過現有技術的名為o3的新「推理」系統，儘管該系統尚未在該公司以外得到廣泛使用。但DeepSeek繼續表明自己並不落後，它在本月發布了自己的一個推理模型，性能同樣令人印象深刻。

　　（《紐約時報》已起訴OpenAI及其合作夥伴微軟，稱其侵犯了與人工智慧系統相關新聞內容的版權。OpenAI和微軟否認了這些指控。）

　　這個快速變化的全球市場的關鍵部分是一個存在已久的想法：開源軟體。與許多其他公司一樣，DeepSeek也將其最新的人工智慧模型放入開源軟體系統，這意味著它已經與其他企業和研究人員共享了基礎代碼，讓其他人能用相同的技術構建和發布自己的產品。

　　雖然中國大型科技企業的員工只與自己的同事合作，但「如果你從事開源軟體開發，你其實是在與世界各地的人才合作」，舊金山Baseten的首席軟體工程師張一能（音）說，他為開源的SGLang項目工作。他還幫助其他人和公司使用DeepSeek模型構建產品。

　　2023年，Meta免費分享了一個名為LLama的人工智慧模型后，人工智慧的開源生態系統開始蓬勃發展。許多人曾假設，只有像Meta這樣的科技巨頭——擁有使用大量專用晶元的大型數據中心——繼續開源其技術，人工智慧社區才會蓬勃發展。但DeepSeek和其他公司已表明，它們也可以拓展開源技術的能力。

　　許多高管和專家認為，美國大公司不應該開源其技術，因為它們能被用來傳播虛假信息或造成其他嚴重危害。一些美國立法者已在探索阻止或限制開源的可能性。

　　但也有人認為，如果監管機構扼殺了開源技術在美國的進步，中國將獲得顯著優勢。他們認為，如果最好的開源技術來自中國，美國開發人員將在這些技術的基礎上構建他們的系統。從長遠來看，這可能會讓中國成為研發人工智慧的中心。

　　「開源社區的重心已在向中國轉移，」加州大學伯克利分校計算機科學教授伊恩·斯托伊卡說。「這對美國來說可能是一個巨大的危險」，因為它讓中國得以加速新技術的研發。

　　就職典禮數小時后，特朗普總統撤銷了拜登政府威脅限制開源技術的行政命令。

　　斯托伊卡和他的學生最近構建了一個名為Sky-T1的人工智慧模型，在某些基準測試中，該模型的性能可與最新的OpenAI系統——OpenAI o1相媲美。他們的模型只需要450美元的計算能力。

　　他們能做到這點是因為他們的系統是建在中國科技巨頭阿里巴巴發布的兩項開源技術的基礎之上的。

　　他們450美元的系統不如OpenAI技術或DeepSeek新模型強大。他們使用的技術不太可能產生超越領先技術性能的系統。但他們的研究表明，即使是資源微不足道的組織或者企業，也能構建具有競爭力的系統。

　　多倫多的技術顧問魯文·科恩從去年12月下旬起一直在使用 DeepSeek-V3。他說，該模型與OpenAI、谷歌，以及舊金山初創公司Anthropic的最新系統能力相當，而且使用起來便宜得多。

　　「DeepSeek是讓我省錢的辦法，」他說。「這是像我這樣的人想用的技術。」