對DeepSeek的指控
在DeepSeek發布其驚世駭俗的DeepSeek v3, 尤其是其1月20日發布的r1模型引發美國股市狂瀉后,美國朝野政治和科技界開始了「反思」。回溯DeepSeek的發展史,人們似乎發現了貓膩(下圖 digit)。
微軟和OpenAI調查DeepSeek是否從ChatGPT非法獲取數據(OPENTOOLs/Yahoo)。偏保守的《紐約郵報》(New York Post)在昨天(1月29日)的一篇題為「OpenAI says it has proof DeepSeek used its technology to develop its AI model」的文章中說,特朗普總統的人工智慧和加密貨幣顧問薩克斯(David Sacks)認為,DeepSeek可能竊取了OpenAI的技術(下圖 threads)。
薩克斯在接受福克斯新聞採訪時表示:「人工智慧中有一種技術(即蒸餾distillation 下圖 yahoo),一個模型通過複製其知識從另一個模型中學習。有強有力的證據表明,DeepSeek對OpenAI的模型做到了這一點。」但《紐約郵報》注意到薩克斯並未「沒有提供具體的證據」。 同時,紐約郵報》還指出,「專家表示,中國和美國的人工智慧初創企業經常使用已建立的人工智慧模型的結果來改進自己的系統。」(Experts say it is common for AI start-ups in China and the US to use results from established AI models to improve their own systems.)
AI中的」fair use」
谷歌發明了變壓器(transformer)架構,OpenAI在transformer的基礎上將其擴展了(scale it up),成就了後來蜚聲全球的ChatGPT語言大模型。但是,《紐約時報》起訴OpenAI和微軟未經許可使用《紐約時報》文章來訓練大語言模型(下圖 RubyMediaGroup)。
《紐約時報》的核心指控是,OpenAI在訓練模型期間未經許可和授權使用和複製(數百萬)《紐約時報》作品,作為大語言模型的訓練材料,侵犯了版權。《紐約時報》列舉的例子中包括一篇發表於2012年關於蘋果全球產業鏈的文章。ChatGPT幾乎是將《紐約時報》的文章一字不漏的生成出來。《紐約時報》認為,OpenAI的行為對高質量新聞報道構成重大威脅 (下圖 SBSTamil)。
OpenAI的律師在答辯時稱,用於其訓練人工智慧機器人的大量數據受到「合理使用」(fair use)規則的保護。所謂「fair use」是美國法律中的一項原則,允許將受版權保護的材料用於教育、研究或評註等目的。OpenAI的最大投資者微軟的律師提出,OpenAI採用《紐約時報》的新聞文本並不違法,因為版權法對大語言模型(LLM)的適用性應該比照錄像機(VCR),或複印機、個人電腦、互聯網、搜索引擎或鋼琴。目前《紐約時報》與OpenAI/微軟的官司仍在繼續當中。另谷歌的Gemini大語言模型也是用百度的文心一言大模型數據來訓練其中文的。在2023年12月18日的一次對Gemini-Pro的測試中,有人問它「你是誰」,Gemini-Pro答稱:我是百度文心大模型。
由總部位於紐約市的Recurrent Ventures媒體公司出版的電子刊物Futurism在1月29日一期中有一篇題為「OpenAI hit with wave of ockery for crying that someone stole its work without permission to build a competiting product」( OpenAI因有人未經許可竊取其作品以構建競爭產品而受到嘲笑 下圖 Futurism)。
文中有一段引用人工智慧評論家Ed Zitron的這麼一段話:「OpenAI這家靠竊取整個互聯網而成立的公司正在哭泣,因為DeepSeek可能已經接受了ChatGPT的輸出訓練。」文章還引用了另一位Bluesky用戶的更為激進的觀點:「如果你竊取了全世界所有的藝術,來製造出欺騙性和不能進行算術運算的技術,並為此收取200美元/每月的費用。而有人竊取了你的技術,然後免費提供這項技術。也許,你並非真正的受害者。」人工智慧評論家Gary Marcus在他的推特X上表示, OpenAI可能也未經許可竊取了YouTube、紐約時報以及無數藝術家和作家的產權。是不是有點尷尬?(下圖 CHANNEL)
筆者看來,DeepSeek與OpenAI現在是一損俱損,一榮俱榮的關係。如果OpenAI輸了與《紐約時報》的官司,DeepSeek的「合理使用」也就不成立,我是說如果有確鑿證據證明DeepSeek在訓練中蒸餾了ChatGPT的數據的話。如果OpenAI的「合理使用」得到法官的支持,那OpenAI/Microsoft沒有理由只許州官放火,不讓百姓點燈。己所不欲,勿施於人。OpenAI CEO曾經說過,如果沒有剽竊受版權保護的材料,就不會有OpenAI。現在OpenAI已經閉源,這話是否對別的開源公司更合適呢?你說呢?
參考資料
巴比特. (2024). AI new horizon | daily must-read: Gemini revealed that it used Baidu Wenxin Yiyuan for Chinese language training. AiCoin. 鏈接 https://www.aicoin.com/en/article/380285
Allyn, B. (2025). 'The New York Times' takes OpenAI to court. ChatGPT's future could be on the line. npr radio. 鏈接 https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft