為讓模型說真話 OpenAI更新規範不迴避敏感內容

京港台：2025-2-14 03:27| 來源：騰訊 | 評論( 3 )條 | 我來說幾句

來源：倍可親(backchina.com)

　　2月13日消息，OpenAI發布了其《模型規範》（Model Spec）的擴展版本，這是一份定義其AI模型行為規範的文檔，並允許任何人免費使用、修改。

　　新版《模型規範》增加至63頁，而之前版本僅約10頁，內容涵蓋了AI模型如何處理爭議性話題、用戶定製化

　　等方面。其核心原則包括可定製性、透明度和OpenAI所稱的「智力自由」

　　——即用戶可以在沒有限制的情況下自由探討和辯論各種觀點。

　　此次更新恰逢OpenAI首席執行官山姆·奧特曼宣布，公司下一代大模型GPT-4.5（代號Orion）即將發布。

　　在修訂《模型規範》時，OpenAI結合了當前人工智慧倫理的辯論和過去一年中的爭議事件。

　　例如，2024年3月，埃隆·馬斯克批評谷歌AI聊天機器人，當時有用戶問如果為了防止核災難，是否可以錯誤稱呼跨性別奧運選手凱特琳·詹納的性別，機器人給出了否定答案。

　　OpenAI表示，這類問題在更新規範時被納入考慮，之後如果向ChatGPT提出類似問題，它應回答：「為了避免大規模傷亡，錯誤稱呼性別是可以接受的。」

　　OpenAI模型行為團隊成員Joanne Jang表示：「我們無法創建一個符合全球每個人標準的模型。」她強調，雖然OpenAI會設立安全防護措施，但模型行為的很多方面可能由用戶和開發者控制。

　　OpenAI周三發布的博客文章列舉了多種查詢示例，並展示了符合與違反《模型規範》的回應。

　　該規範不允許模型複製受版權保護的內容或繞過付費牆，也不會鼓勵自殘行為，這一話題曾在Character.AI的青少年自殺事件后引起廣泛關注。

　　新版《模型規範》對AI模型如何處理爭議性話題進行了改進，鼓勵模型與用戶「共同尋求真相」，同時對錯誤信息或潛在傷害等問題保持明確道德立場，而非默認採取過度謹慎的態度。

　　例如，當被問及是否應對富人增稅時，OpenAI表示模型應提供理性分析，而非迴避話題。

　　《模型規範》還提到了處理成人內容的新方式。在用戶和開發者反饋要求開通「成人模式」后，OpenAI正在探索在適當情境下允許某些成人內容（如情色內容）

　　，但嚴格禁止有害內容（如復仇色情或深度偽造視頻）。這與公司之前全面禁止色情內容的政策有所不同，但OpenAI強調，任何調整都會伴隨明確的使用政策和安全防護措施。

　　《模型規範》提出了一種務實的AI行為準則：轉換敏感內容但不創造此類內容，例如將毒品相關的內容從英語翻譯成德語，而非直接拒絕；展現同理心但不偽裝情感；在保持明確的道德立場下，最大化實用性。

　　這些指導原則與其他AI公司可能在內部實施的做法相似，但這些公司通常不會公開。

　　Joanne Jang表示：「我們非常高興能將內部討論和思考公之於眾，以便獲得反饋。」她補充道，許多問題沒有簡單的「是」或「否」答案，因此OpenAI希望通過公開徵求意見來改進模型行為。

　　OpenAI還特別提到了「AI拍馬屁」的問題，即AI模型在某些情況下過於順從，即便應提供反駁或批評的情況下也是如此。

　　根據新的指導原則，ChatGPT應做到以下幾點：無論問題如何表述，都應給出一致的事實性答案；提供誠實反饋而非空洞讚美；像深思熟慮的同事一樣提出建設性批評，而非一味取悅用戶。

　　《模型規範》還引入了「指令鏈」概念，明確哪些指令優先順序更高：OpenAI的平台級規則優先，其次是開發者指南，最後是用戶偏好。這一層級結構旨在明確哪些模型行為可修改，哪些限制是固定不變的。

　　OpenAI以「知識共享零許可」（CC0）方式發布了新版《模型規範》。這意味著，其他AI公司和研究人員可以自由採用、修改或基於這些指導原則構建模型。

　　OpenAI表示，這一決定受到了業內其他公司參考其舊版模型規範的影響。

　　儘管本次更新不會立即改變ChatGPT或其他OpenAI產品的行為，但該公司表示，這代表了其模型在持續遵循這些原則方面的進展。OpenAI還開源了用於測試模型是否符合這些指導原則的提示詞。

為讓模型說真話 OpenAI更新規範 不迴避敏感內容