DeepSeek是如何分析文本的,為什麼有時會誤解你
來源:倍可親(backchina.com)那些2月3日有篇文章,批評DeepSeek會胡說八道,誤導用戶,因此比Chat GPT危險百倍,正在中文網際網路構建「幻覺長城」。這篇文章揭示的問題確實存在。我1月底就發現了類似的問題。
我的觀點是:
【1】它出錯是因為:對於用戶輸入的有些文本,它無法正確理解,因此在推理思考就會出錯。
【2】這是所有AI模型發展過程中必然出現的現象,不必苛求。AI模型畢竟才剛剛起步,未來還需要多年的訓練(進化)。
【3】用戶在使用時應該充分注意,盡量說清楚自己的需求,而不是把一個簡單問題丟給它,完全依賴和相信它輸出的結果。
為了說明這個問題,我們從AI模型如何理解文本開始說起:
一、AI模型的參數
AI模型動輒有幾百、幾千億個參數。7B、14B……中的B就表示billion(10億)個參數。參數越多,模型通常學習能力越強,但資源消耗也越大。
所謂的「參數」(Parameters),是機器學習模型(尤其是神經網路)的核心組成部分。它就像AI模型的"大腦細胞"。打個比方,想象你正在組裝一個巨型的樂高機器人:
每個樂高積木 ≈ 1個參數;
積木的連接方式 ≈ 參數之間的關係;
最終組裝的機器人 ≈ 完整的AI模型。
這樣,參數越多,樂高積木越多,組裝出來的機器人越精細,機器人能完成的動作越複雜。7B參數就相當於用70億塊樂高拼成機器人;14B參數就像用140億塊樂高拼成機器人。
為什麼需要這麼多參數?這是因為人類語言非常複雜。舉個例子,"蘋果"這個詞可能表示:
- 水果(我要吃蘋果)
- 手機品牌(新款蘋果發布了)
- 公司名稱
- 電影名稱(《蘋果》由范冰冰主演)
要讓AI理解這些細微差別,就需要海量參數來建立多維度的關聯。
例如要處理這句話:"夏天在巴黎喝咖啡很浪漫",AI模型的處理是:
近年來,AI模型處理參數的能力在不斷增長。
參數量的增長,是為了覆蓋更多知識維度。例如,一個14B參數的模型,存儲了超過100種編程語言的語法規則;記憶了50萬條常識知識;建立了10億級的概念關聯。
這樣,等你向AI模型輸入一句話時,它能根據自己的「知識」和參數,對這句話進行解析,去理解你的意思。
在實際的神經網路中:
以14B參數的模型為例,大約有40個這樣的層;每層需要約3.5億參數;加上詞嵌入等其它參數,總數達到140億。
參數越多,計算量越大,就越需要量化技術(如GPTQ、GGUF)來壓縮參數,讓大模型能在普通顯卡上運行。
為什麼7B模型比14B快那麼多?這就像用精簡版樂高套裝(7B)和完整版(14B)拼模型的區別,參數越少運算速度自然越快,但細節表現力也會下降。
二、AI模型是如何解讀用戶輸入的文本的
當用戶在AI模型輸入一段文本時,AI模型會對每句話進行解析,通過參數中的模式和關聯來生成響應。我們舉一個方言的例子:
他活像個五霸諸侯。
這是我家鄉(河南省西南部)的一句方言,我不知道別的地方是否也有類似的說法。但我可以肯定,在網上不可能查到這樣的方言用法。當地老百姓99%不知道他們日常所說的「wu ba zhu hou」怎麼寫。實際上,我從小到大一直困惑這個「wu ba zhu hou」到底是哪幾個字,一直以為是「武霸豬猴」,形容一個人飛揚跋扈。一直到長大后才悟出來指的是春秋五霸,戰國諸侯。
我告訴DeepSeek這是一句方言,但沒告訴它這是哪裡的方言。讓它自己來分析。它是怎麼分析的呢?它說:
假設這句話出現在山西/陝西方言中,模型的處理流程如下:
1、詞語拆解與模式識別。即先把這句話拆解成很多語素,與自己的參數聯繫起來。
2、參數激活的「三明治結構」。
3、跨參數組的協同運算(以14B模型為例)
通過這樣的流程,DeepSeek基本上正確理解了這句話的意思。
AI模型沒有實際的知識庫,參數更像神經元的連接強度。舉兩個對比案例:
關鍵差異是:模型不會真正「知道」五霸諸侯是誰,而是通過參數建立「五霸→權力→誇張比喻」的關聯網路。
在分析文本時,參數量的優勢體現在這三個層面:
1、細粒度模式捕捉
7B模型可能只能理解:五霸諸侯 ≈ 厲害的人
14B模型可以區分:五霸(歷史具體性) + 諸侯(地域統治) → 強調權力範圍的威風
2、長距離關聯。
"他活像..." → (中間經過20層參數運算) → 聯想到《白鹿原》中方言使用場景。
3、抗干擾能力。
當輸入有雜訊時,比如錯誤輸入:"他活像五八豬猴"。7B模型可能輸出"像某種動物";14B模型通過更多參數交叉驗證,仍可能聯想到正確表達。
但是,參數多≠真正理解,只是統計模式更豐富。就像給你一本方言詞典(參數),但不生活在當地(具身體驗),仍難完全掌握語言神韻。
三、為什麼AI模型會犯錯?
明白了AI模型是如何讀懂文本的,也就很容易明白,為什麼它會讀不懂、誤解一些文本。
如果用戶輸入的文本的字詞的結構方式,AI模型從未見過,它就不能正確分析文本的意思。為了說明這個問題,我們舉一個例子:
你楞得跟啥一樣。
這也是我家鄉的一句方言。我相信除了我家鄉的人,沒人知道這句話是什麼意思。我們讓DeepSeek來分析這句話。它是這麼分析的:
1. 辭彙拆解與參數激活。
2. 關鍵難點突破:「楞」的跨方言語義。
3. 參數空間的協同推理
即DeepSeek經過一番分析,認為這句話是批評對方固執倔強,或者指責對方發獃。
平心而論,DeepSeek這樣分析肯定是沒錯的。但是在我家鄉,這句話不是這個意思。在我家鄉,「楞」是指人非常在意、喜歡打扮,喜歡穿漂亮的衣服,在別人面前炫耀自己的漂亮衣服。我覺得這個「楞」有點像「浪」的轉音,但沒有「浪」那麼強烈,沒有什麼貶義,而是包含了一些褒義。比如過年的時候,長輩說晚輩:
你看他多楞,還沒到過年,就開始穿新衣服了。
DeepSeek顯然不知道這種意思,它的參數無法把「楞」和「愛打扮、愛漂亮」聯繫起來,因此它無法正確解讀這句話。但是從「楞」的常見意思來說,它又正確地解讀了這句話。
再舉個極端的例子,如果某個部落中,說一種語言,但沒有文字。現在把部落土著的發音用字母記下來,輸入DeepSeek,它也不可能理解。
即DeepSeek已經盡其所能地去理解文本,但是相關知識的參數太少,導致它有時候無法把文本與正確的知識聯繫起來進行推理,結果得出了錯誤的結論。
我個人認為:
【1】在應用中出現的大多數錯誤,原因可能都在於此。並不是DeepSeek在故意瞎編,而是它的推理方法決定了,它只能給出這樣的結果。
【2】相對於此前的很多「人工智障」模型來說,DeepSeek的推理能力確實很強大,容易讓人誤以為它說的都是對的。實際上並非如此。因此用它來完善思路、開闊思維、給文章潤色是可以的,但完全依賴它來分析學術問題是不合適的,至少現在不行。它還需要不斷進化(訓練)。不過,可以預見,即便進化得再先進,在理解有些文本時,它也可能會出錯。這很正常,人類自己理解時,也會出錯。
【3】確實存在一個風險,即人們把DeepSeek輸出的含有錯誤的文本當做正確的傳播,久而久之,對大多數人產生了誤導。這種情況其實之前就有,過去這些年,一些臭名昭著的自媒體自動生成了無數錯誤百出的劣質文檔,四處傳播。實際上,網上99%的文字都是垃圾。DeepSeek即便出錯,也只不過是在這個大垃圾堆上又丟了一袋垃圾,相對於此前的模型來說,它生產的垃圾算少的。並且隨著它不斷進化,這種情況會慢慢改善。
還可以這麼想:
DeepSeek在輸出比較簡單的知識方面,不太可能出問題;但是在輸出複雜問題時可能會出錯。那些容易被網上的劣質垃圾文字輕而易舉地誤導的人,根本就不會去閱讀較深的分析文章,也就沒有機會被DeepSeek誤導。換言之,想被DeepSeek誤導,也是有門檻的。
【4】在使用DeepSeek輸出文本和編程時,一定要自己心裡有數,詳細地寫出自己的需求,不能聽任它放飛自我。比如編寫程序,要寫清楚讓它每一步怎麼做。如果放任它自己發揮的話,你可能會發現它編的程序不能用。
