研究成果

活 動 / 研 究 成 果

2017/12/13
以互動強化方式達成機器人行為調適之學習
隨著機器人進入人們的日常生活,機器人分配的任務是多樣的,人們與機器人互動的需求也是多變的。因此,當面對不同的用戶時,機器人個人化互動並提供用戶期待的服務是重要的。因此,本研究提出了一種服務提供模式的學習策略。透過人類的反饋,該策略使機器人能夠了解用戶的需求以及喜好,並調整其行為。在這裡,我們假設用戶的需求和偏好可能會隨著時間而變化。因此本文的目的是讓機器人行為的調整能夠適應這些變化。反過來,機器人的服務提供模型也可以線上調整。也就是說,它可以從很早以前選擇的那些有利的行動中選擇一個新的行動,或者這是個最近不會使人類感到不快的行為。為了實現我們的系統,所討論的服務機器人被應用於社交環境。

機器人輔助人機交互的目的通常是了解用戶的需求和意圖。在本研究中,將學習問題運用在予人服務的任務上,機器人的目標是為個人用戶提供人性化的服務。如圖1所示,構建提供服務的任務模型,使機器人在服務的過程中與人互動,在互動的過程中學習到使用者的需求與偏好。

機器人的目標是在正確的時間和正確的情況下提供用戶期待的服務。我們設計了多種類型的服務,每個服務中還有對應用戶偏好的細項種類。例如,機器人不但能提供茶水服務,甚至機器人還能知道用戶喜歡的茶水類型。此研究通過與用戶進行互動並觀察反饋,機器人應該學習如何適應用戶,最終機器人會在什麼情況下指出用戶會喜歡哪種服務,如圖2。實際上,不同的用戶自己的需求和喜好。此外,用戶的需求和偏好可能會隨著時間而改變。最重要的是,用戶不直接告訴機器人要什麼樣的服務,如何或什麼時候做動作,機器人必須通過與用戶互動來學習。機器人必須調整其行為以適應不同的用戶。一開始,機器人對用戶的需求和喜好一無所知。根據所收集到的互動經驗,機器人逐漸了解用戶,學習調整行為,使互動和服務更加有效率。


                                                圖 1 服務提供之馬可夫決策模型


                                          圖 2 機器人與用戶的互動學習流程