為什麼會是這種情況呢?這可以歸結為機器人對任務知識以及它所感知到的力的理解。通常,任務的概念是以一種目標函數的形式被賦予機器人的。這個目標函數為任務的不同方面編碼獎勵,例如「到達位置 X」,或者「在遠離人類的同時朝著桌子移動」。機器人使用它的目標函數來生成可以滿足任務所有方面的動作:例如,機器人會朝著目標 X 移動,同時選擇靠近桌子和遠離人類的路徑。如果機器人最初的目標函數是正確的,那麼任何外部干擾對它而言都是對它正確路徑的干擾。因此,為了安全起見,機器人應該允許物理交互來干預它,但是它最終會返回到計劃的最初路徑,因為它固執地認為最初的規劃是正確的。
我們將會集中討論這種方法的兩個部分:(1)目標函數的結構;(2)機器人通過給定的人類物理交互推理目標函數的觀察模型。讓 x 代表機器人的狀態(例如位置和速度),uR 代表機器人的動作(例如施加到關節的扭矩)。人類可以通過外部的力矩來與機器人產生物理交互,稱作 uH,機器人通過它的動力運動到下一個狀態。
A. Bajcsy, D.P. Losey, M.K. O』Malley, and A.D. Dragan. Learning Robot Objectives from Physical Human Robot Interaction. Conference on Robot Learning (CoRL), 2017.
A. Bajcsy , D.P. Losey, M.K. O』Malley, and A.D. Dragan. Learning from Physical Human Corrections, One Feature at a Time. International Conference on Human-Robot Interaction (HRI), 2018.