哈哈哈,刷太多社交媒體,連AI都會變蠢而自戀?

京港台:2025-10-24 05:59| 來源:英國那些事兒 | 我來說幾句

哈哈哈,刷太多社交媒體,連AI都會變蠢而自戀?

來源:倍可親(backchina.com)

  之前就有研究發現,如果一個人成天泡在網上,不是刷短視頻就是玩社媒,久而久之,大量的碎片化或膚淺的信息,會讓大腦變遲鈍,導致喪失注意力和推理深度。

  最近,得克薩斯農工大學、得克薩斯大學奧斯汀分校和普渡大學共同進行了一項研究,發現不光是人,就連AI經常看這些都會變傻......

  

  (AI,示意圖)

  這項調查主要研究的是「大語言模型認知退化假說」,簡單來說就是,給大語言模型訓練的AI輸入越多的垃圾數據,其輸出的內容質量就會越差。

  為了驗證這個假說,三個大學的科研團隊做了一項實驗——

  首先,團隊在社交媒體X上,收集了一百萬篇真實的帖子作為樣本,這些垃圾帖子分為兩大類:

  · M1(參與度):簡短、以病毒式速度傳播且被大量點贊或轉發,旨在最大限度吸引用戶關注的帖子。

  · M2(語義質量):被標記為信息價值低或標題黨的帖子,比如誇大其詞或使用博眼球的語句。

  之後,科研團隊按照不同比例分配這些垃圾帖,設計了一些訓練數據組,有的是垃圾帖比例高的低質量組,有的則是垃圾帖較少的高質量組。

  然後,團隊用這些數據組訓練了4個AI,分別是Llama3 8B、Qwen2.5 7B、Qwen2.5 0.5B和Qwen3 4B,每個AI使用的訓練數據組都一樣,這樣就可以進行橫向比較了。

  實驗的結果,果真如團隊預想的一樣。

  當AI用低質量的數據組進行訓練時,其推理準確率從74.9,下降到57.2;

  對長上下文的理解能力從84.4,下降到52.3.

  而且,樣本組中垃圾帖的比例越高,下降的情況就會越嚴重,AI可能會進入「無思考」模式,無法做出推理,輸出的答案很可能不準確。

  雖然4個AI都受到影響,但情況也有所不同。

  比如,Qwen 3 4B表現出的適應力更強;

  M1和M2兩類數據組都會讓AI變傻,但M1的影響更嚴重。

  更有意思的是,垃圾數據除了影響推理能力和理解能力,實驗中AI還出現了倫理一致性下降(倫理一致性指道德標準、行為和價值觀之間不存在矛盾),以及「人格漂移」的問題(人格漂移指AI在長期使用中,性格特徵或行為模式逐漸偏離預設範圍的現象)。

  團隊發現,接觸大量垃圾數據后,AI會變得不那麼可靠,更容易給出錯誤答案,而且更容易做出膚淺的反應。

  比如Llama3 8B,它變得更自戀,也不那麼隨和了。

  看來,不光是人類,就連AI都扛不住社媒上垃圾信息的狂轟濫炸。

  基於以上實驗結論,科研團隊也分析了AI變傻的原因。

  他們發現,當AI接到一個複雜的推理任務時,用垃圾數據進行訓練的大語言模型AI,經常會出現跳過某些推理步驟的情況,研究人員將其稱為「思維跳躍」。

  這時,AI無法提供詳細而合乎邏輯的解釋,而是會給出更簡短、更缺乏結構化的答案,通常是直接得出結論。

  這中模式就解釋了大部分準確率下降的問題。

  而且,使用M1類數據進行訓練的AI,會存在某些「黑暗特質」,比如自戀和精神病態的傾向加重。

  通過人格評估的基準來看,這些特質會讓AI更自信地提供錯誤或有道德風險的答案。

  科研人員嘗試用更乾淨的數據重新訓練AI,希望解決這一問題,但效果有限。

  雖然AI的推理準確率有所提高,但沒能恢復到基準線水平,這說明退化是持久的,科研人員將其稱為「持續性表徵漂移」。

  不難看出,用於訓練AI的數據質量如何,對AI的安全性和可靠性有著至關重要的作用,這給人工智慧行業提出了一些警示。

  這項研究成果對人工智慧開發者和政策制定者來說都很有意義,它將數據管理重新定義為「訓練時的安全問題」,而不再僅僅是一種技術細節。

  實驗表明,長時間接觸低質量的數據會影響大語言模型AI的認知和倫理可靠性,而認知和倫理可靠性正是AI能在金融、教育或公共傳播領域被安全應用的基礎,不得不引起警惕。

  還有,垃圾數據也會削弱AI在長上下文環境中,保留和使用信息的能力。

  有意思的是,人類在長期接觸碎片化或情緒化的內容時,注意力和記憶力也會被削弱,AI和人類在這一點竟然高度相似。

  因為現在網際網路上的大部分內容都包含AI生成或優化的部分,科研人員警告,如果訓練AI的數據質量得不到嚴格管理,未來的AI可能會保留並放大那些錯誤。

  為了防止AI變傻,科研人員也提出了一些建議。

  他們呼籲對大語言模型AI的認知健康狀況進行系統性監測,類似於其他行業實行的定期安全或績效審查。

  他們建議採取三大關鍵步驟:

  一是,對已部署的AI引入常規認知評估,這樣在其推理能力下降的早期就能發現端倪;

  二是,預訓練階段,加強數據質量的把控,並針對碎片化內容或高參與度的文本(也就是M1那類內容),設置更強大的過濾器;

  三是,繼續研究病毒式傳播或注意力驅動式內容,如何重塑AI的學習模式,從而設計出能屏蔽其影響的AI。

  在不斷變化的網路數據環境中,AI不斷地進行再訓練,它們輸出的錯誤內容,之後可能會變成對它們進行再訓練的數據,導致惡性循環,讓AI越變越傻。

  科研人員表示,以上幾項建議對防止這種情況非常重要。

  人類訓練和使用AI的道路上,還有很多問題需要解決.....

        更多科技前沿 文章    >>

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-11-30 22:58

返回頂部