DeepSeek的崛起之路:從"炒股神器"到AI明星
來源:倍可親(backchina.com)兩年前,當百度和阿里巴巴等知名中國科技公司通過發布奪人眼球的公告和新聊天機器人來追趕矽谷在人工智慧領域的進展時,DeepSeek採取了不同的做法。它專註於研究。
這個策略奏效了。
這家中國初創公司稱,它創建了一個功能強大的人工智慧模型,其構建成本大大低於資金雄厚的美國競爭對手的產品,這一消息震驚了整個科技界。
在中美兩國爭奪人工智慧主導權的競爭中,DeepSeek似乎橫空出世。事實上,它近年來在中國科技界一飛衝天,走的完全不是傳統路數。
DeepSeek的研究使命與OpenAI等公司相似,OpenAI在2022年秋季為美國在人工智慧領域做出了標誌性的貢獻。不過,它們的相似之處大多僅止於此。
DeepSeek起源於金融,並非為發展技術本身而做技術。它的母公司是一家名為幻方的中國對沖基金,起初並不是一家像OpenAI那樣致力於保護人類免受人工智慧侵害的實驗室,而是一家利用人工智慧在中國股市下注的企業。
中國的散戶投資者以衝動進出股市而聞名,幻方正是抓住了這一市場的機遇,得以蓬勃發展。2021年,幻方發現自己受到了中國監管機構打擊投機的壓力,政府認為這有悖於保持市場平穩的努力。
因此,幻方開始尋求一個新的機會,它認為這個機會更符合中國政府的優先事項:先進的人工智慧。
「我們主要做的科技方向——只是大家習慣把我們局限在投資領域,AGI有大得多的用處和大得多的價值,」2023年,幻方首席執行官陸政哲對中國官方媒體說。「我們獨立於投資新成立了一個團隊,相當於二次創業。」
DeepSeek應運而生。與其他許多中國初創企業一樣,它以不同的商業模式進入了一個成熟的市場。
據信,DeepSeek的最新人工智慧模型幾乎與美國競爭對手一樣強大,但效率卻高得多。它的成功表明,矽谷在人工智慧領域的領先優勢已經縮小。儘管華盛頓努力限制中國獲得人工智慧所需的先進晶元,但DeepSeek的突破還是讓人懷疑這些控制措施是否長期有效——儘管DeepSeek的創始人承認晶元限制是一個問題。
DeepSeek並沒有依靠生產面向消費者的人工智慧產品來獲取收入,直到本月才發布了第一個聊天機器人,任何人都可以通過簡單的命令生成文字和照片。實際上,該公司利用幻方從股票交易中賺到的錢來資助雄心勃勃的研究。這種做法使它有別於美國的競爭對手,因為它們從根本上都是消費技術公司。
這種非常規方法也讓DeepSeek得以避開中國政府對公眾使用的人工智慧的嚴格監管。由於該公司專註於研究,並向使用其模型的企業銷售產品,而在本月發布聊天機器人之前,並不面向消費者應用,因此其早期工作並未引發同樣的政府限制。
DeepSeek的首席執行官梁文鋒是一位戴眼鏡的清瘦工程師,曾就讀位於杭州的浙江大學。他在接受中國媒體的幾次採訪中反覆表示,要趕上美國的創新步伐,中國公司必須把研究放在利潤之前。DeepSeek和幻方都沒有回應置評請求。
梁文鋒在接受中國科技媒體36氪的一次廣為流傳的採訪時說,中國科技公司「缺的不是資本,而是缺乏信心以及不知道怎麼組織高密度的人才」。
根據採訪和公開報道,與梁文鋒共事過的人都認為他是一位有能力、有深厚技術背景的管理者。
曾參與DeepSeek早期模型開發的計算機工程師王子涵(音)說:「他絕對是個INTP,」他指的是邁爾斯·布里格斯測試中的一種內省型人格類型,這是一種在中國年輕人中很流行的人格測試。「INTP是很好的研究者,他們喜歡探索,」王子涵說。「他不是那種想控制一切的人。」
他說,梁文鋒不太在意項目時間表等細節,偶爾會向整個研究團隊提出一些發人深省的研究問題。但最主要的是,梁文鋒似乎以推動技術進步為動力,並不注重利潤。
許多中國公司傾向於招聘程序員,梁文鋒與他們不同,他出了名地會聘用計算機領域以外的人才。DeepSeek的員工中有來自中國頂尖大學的詩人和人文學科專業的學生,他們訓練模型編寫中國古典詩詞,並解答中國難度很大的高考題。
「團隊中的大多數人都畢業於中國的頂尖大學,」舊金山巴塞頓公司的首席軟體工程師張一能(音)說,他負責SGLang項目,該項目不是DeepSeek的一部分,而是幫助人們在DeepSeek系統的基礎上進行構建。「他們非常聰明,也非常年輕。」
多年來,中國科技公司一直是計算機視覺領域人工智慧應用,如面部識別的先驅。但是,OpenAI發布的ChatGPT引起了人們的反思。當沒有一家中國公司立即發布可與之媲美的產品時,許多人得出結論:美國公司在先進的人工智慧領域處於領先地位。
在中國,計算機科學家們決心證明自己能夠與之競爭。2023年,中國的許多公司都發布了自己的大語言模型,該技術是ChatGPT等聊天機器人的基礎。
但是,打造先進的模型需要使用大量晶元,這將花費數億美元。
幻方也在投入大筆資金。到2021年,它已成為能夠儲備10000多枚英偉達高級A100晶元的少數中國公司之一。
然而,DeepSeek的研究為它帶來了意外的優勢。去年,它大幅降低了向使用其模型開發應用程序的開發者收取的費用,從而引發了一場與大型競爭對手的價格戰。
曾在DeepSeek工作的工程師王子涵說,公司很少討論他們正在開發的技術的商業應用問題。相反,他說,公司的重點是打造一個人工智慧系統,供不同的人用於不同的目的。
「我在那裡工作期間,我們並沒有過多地討論如何賺錢,」他說。「他們只是專註於打造一個優秀的基礎模型。」
DeepSeek廣受歡迎的一個重要原因是,它公開了開發者的工作。這種被稱為開放源代碼的信息共享一直是計算機軟體、網際網路和人工智慧發展的基石。
在美國,人工智慧研究人員和企業家長期以來一直在關注DeepSeek的技術進展。去年,該公司發布了可自行生成計算機程序的系統,引起了廣泛關注。
DeepSeek新的知名度可能帶來新的挑戰。就在上個月發布新聊天機器人R1的同一天,梁文鋒出席了與中國總理李強的座談會。
DeepSeek的突然走紅將其推向了中國共產黨激勵創新的努力的中心,這可能會難以駕馭,聯邦資助的智庫蘭德公司技術分析高級顧問吉米·古德里奇說。「這對DeepSeek來說是一個很嚴重的兩難局面,」他說。「我相信中國政府的五年計劃中肯定沒有他們。」
「當黨和世界都注視著他們,他們還能保持這種混亂而自由自在的願景嗎?」