OpenAI 最新成果：讓 AI 「自我解剖」，結果人類更怕了

倒序瀏覽 · 發表於 2023-5-11 19:30

OpenAI 剛剛在官網發布博客文章《語言模型可以解釋語言模型中的神經元》（Language models can explain neurons in language models）。簡單來說，他們開發了一個工具，調用 GPT-4 來計算出其他架構更簡單的語言模型上神經元的行為，這次針對的是 GPT-2，發佈於 4 年前的開源大模型。 
大模型（LLM）和人腦一樣，由「神經元」（neurons）組成，這些神經元會觀察文本中的特定規律，進而影響到模型本身生產的文本。舉例來說，如果有一個針對「漫威超級英雄」的神經元，當用戶向模型提問「哪個超級英雄的能力最強」時，這個神經元就會提高模型在回答中說出漫威英雄的概率。 
OpenAI 開發的工具利用這種規則制定了一套評估流程。開始之前，先讓 GPT-2 運行文本序列，等待某個特定神經元被頻繁「激活」的情況。 
然後有三個評估步驟： 
第一步，讓 GPT-4 針對這段文本，生成解釋。比如在下面的案例中，神經元主要針對漫威內容。GPT-4 接收到文本和激活情況后，判斷這與電影、角色和娛樂有關。 
第二步，用 GPT-4 模擬這個 GPT-2 的神經元接下來會做什麼。下圖就是 GPT-4 生成的模擬內容。