不出所料，自動駕駛向ChatGPT下手了！

倒序瀏覽 · 發表於 2023-2-12 18:19

在 1 月的毫末智行的 AI DAY 上，毫末 CEO 顧維灝非常隆重地提到了 ChatGPT，並且直言，毫末已經展開對於 ChatGPT 背後的技術的研究。 
顧維灝說：「實現 GPT3 到 ChatGPT 的龍門一躍最重要的是 ChatGPT 模型使用了『利用人類反饋強化學習 RLHF』的訓練方式，更好地利用了人類知識，讓模型自己判斷其答案的質量，逐步提升自己給出高質量答案的能力。」那這對自動駕駛有什麼啟發呢？毫末認為，ChatGPT 的技術思路和自動駕駛認知決策的思路是不謀而合。 
毫末在認知駕駛決策演算法的進化上分成了以下三個階段： 
第一個階段是引入了個別場景的端到端模仿學習，直接擬合人駕行為。 
第二個階段是通過大模型，引入海量正常人駕數據，通過 Prompt 的方式實現認知決策的可控可解釋。 
第三個階段就是引入了真實接管數據，在其中嘗試使用「人類反饋強化學習（RLHF）」。一般來說，人類司機的每一次接管，都是對自動駕駛策略的一次人為反饋；這個接管數據可以被簡單當成一個負樣本來使用，就是自動駕駛決策被糾正的一次記錄。同時也可以被當作改進認知決策的正樣本來學習。 
為此，毫末構建了一個< 舊策略、接管策略、人工 label 策略 >的 pairwise 排序模型。基於這個模型，毫末構建了自動駕

不出所料，自動駕駛向ChatGPT下手了！

瀏覽過的版塊