哈哈哈,刷太多社交媒體,連AI都會變蠢而自戀?
來源:倍可親(backchina.com)之前就有研究發現,如果一個人成天泡在網上,不是刷短視頻就是玩社媒,久而久之,大量的碎片化或膚淺的信息,會讓大腦變遲鈍,導致喪失注意力和推理深度。
最近,得克薩斯農工大學、得克薩斯大學奧斯汀分校和普渡大學共同進行了一項研究,發現不光是人,就連AI經常看這些都會變傻......
(AI,示意圖)
這項調查主要研究的是「大語言模型認知退化假說」,簡單來說就是,給大語言模型訓練的AI輸入越多的垃圾數據,其輸出的內容質量就會越差。
為了驗證這個假說,三個大學的科研團隊做了一項實驗——
首先,團隊在社交媒體X上,收集了一百萬篇真實的帖子作為樣本,這些垃圾帖子分為兩大類:
· M1(參與度):簡短、以病毒式速度傳播且被大量點贊或轉發,旨在最大限度吸引用戶關注的帖子。
· M2(語義質量):被標記為信息價值低或標題黨的帖子,比如誇大其詞或使用博眼球的語句。
之後,科研團隊按照不同比例分配這些垃圾帖,設計了一些訓練數據組,有的是垃圾帖比例高的低質量組,有的則是垃圾帖較少的高質量組。
然後,團隊用這些數據組訓練了4個AI,分別是Llama3 8B、Qwen2.5 7B、Qwen2.5 0.5B和Qwen3 4B,每個AI使用的訓練數據組都一樣,這樣就可以進行橫向比較了。
實驗的結果,果真如團隊預想的一樣。
當AI用低質量的數據組進行訓練時,其推理準確率從74.9,下降到57.2;
對長上下文的理解能力從84.4,下降到52.3.
而且,樣本組中垃圾帖的比例越高,下降的情況就會越嚴重,AI可能會進入「無思考」模式,無法做出推理,輸出的答案很可能不準確。
雖然4個AI都受到影響,但情況也有所不同。
比如,Qwen 3 4B表現出的適應力更強;
M1和M2兩類數據組都會讓AI變傻,但M1的影響更嚴重。
更有意思的是,垃圾數據除了影響推理能力和理解能力,實驗中AI還出現了倫理一致性下降(倫理一致性指道德標準、行為和價值觀之間不存在矛盾),以及「人格漂移」的問題(人格漂移指AI在長期使用中,性格特徵或行為模式逐漸偏離預設範圍的現象)。
團隊發現,接觸大量垃圾數據后,AI會變得不那麼可靠,更容易給出錯誤答案,而且更容易做出膚淺的反應。
比如Llama3 8B,它變得更自戀,也不那麼隨和了。
看來,不光是人類,就連AI都扛不住社媒上垃圾信息的狂轟濫炸。
基於以上實驗結論,科研團隊也分析了AI變傻的原因。
他們發現,當AI接到一個複雜的推理任務時,用垃圾數據進行訓練的大語言模型AI,經常會出現跳過某些推理步驟的情況,研究人員將其稱為「思維跳躍」。
這時,AI無法提供詳細而合乎邏輯的解釋,而是會給出更簡短、更缺乏結構化的答案,通常是直接得出結論。
這中模式就解釋了大部分準確率下降的問題。
而且,使用M1類數據進行訓練的AI,會存在某些「黑暗特質」,比如自戀和精神病態的傾向加重。
通過人格評估的基準來看,這些特質會讓AI更自信地提供錯誤或有道德風險的答案。
科研人員嘗試用更乾淨的數據重新訓練AI,希望解決這一問題,但效果有限。
雖然AI的推理準確率有所提高,但沒能恢復到基準線水平,這說明退化是持久的,科研人員將其稱為「持續性表徵漂移」。
不難看出,用於訓練AI的數據質量如何,對AI的安全性和可靠性有著至關重要的作用,這給人工智慧行業提出了一些警示。
這項研究成果對人工智慧開發者和政策制定者來說都很有意義,它將數據管理重新定義為「訓練時的安全問題」,而不再僅僅是一種技術細節。
實驗表明,長時間接觸低質量的數據會影響大語言模型AI的認知和倫理可靠性,而認知和倫理可靠性正是AI能在金融、教育或公共傳播領域被安全應用的基礎,不得不引起警惕。
還有,垃圾數據也會削弱AI在長上下文環境中,保留和使用信息的能力。
有意思的是,人類在長期接觸碎片化或情緒化的內容時,注意力和記憶力也會被削弱,AI和人類在這一點竟然高度相似。
因為現在網際網路上的大部分內容都包含AI生成或優化的部分,科研人員警告,如果訓練AI的數據質量得不到嚴格管理,未來的AI可能會保留並放大那些錯誤。
為了防止AI變傻,科研人員也提出了一些建議。
他們呼籲對大語言模型AI的認知健康狀況進行系統性監測,類似於其他行業實行的定期安全或績效審查。
他們建議採取三大關鍵步驟:
一是,對已部署的AI引入常規認知評估,這樣在其推理能力下降的早期就能發現端倪;
二是,預訓練階段,加強數據質量的把控,並針對碎片化內容或高參與度的文本(也就是M1那類內容),設置更強大的過濾器;
三是,繼續研究病毒式傳播或注意力驅動式內容,如何重塑AI的學習模式,從而設計出能屏蔽其影響的AI。
在不斷變化的網路數據環境中,AI不斷地進行再訓練,它們輸出的錯誤內容,之後可能會變成對它們進行再訓練的數據,導致惡性循環,讓AI越變越傻。
科研人員表示,以上幾項建議對防止這種情況非常重要。
人類訓練和使用AI的道路上,還有很多問題需要解決.....
