以互動強化方式達成機器人行為調適之學習 - 國立臺灣大學人工智慧與機器人研究中心

活動 / 研究成果

2017/12/13

以互動強化方式達成機器人行為調適之學習

隨著機器人進入人們的日常生活，機器人分配的任務是多樣的，人們與機器人互動的需求也是多變的。因此，當面對不同的用戶時，機器人個人化互動並提供用戶期待的服務是重要的。因此，本研究提出了一種服務提供模式的學習策略。透過人類的反饋，該策略使機器人能夠了解用戶的需求以及喜好，並調整其行為。在這裡，我們假設用戶的需求和偏好可能會隨著時間而變化。因此本文的目的是讓機器人行為的調整能夠適應這些變化。反過來，機器人的服務提供模型也可以線上調整。也就是說，它可以從很早以前選擇的那些有利的行動中選擇一個新的行動，或者這是個最近不會使人類感到不快的行為。為了實現我們的系統，所討論的服務機器人被應用於社交環境。

機器人輔助人機交互的目的通常是了解用戶的需求和意圖。在本研究中，將學習問題運用在予人服務的任務上，機器人的目標是為個人用戶提供人性化的服務。如圖1所示，構建提供服務的任務模型，使機器人在服務的過程中與人互動，在互動的過程中學習到使用者的需求與偏好。

機器人的目標是在正確的時間和正確的情況下提供用戶期待的服務。我們設計了多種類型的服務，每個服務中還有對應用戶偏好的細項種類。例如，機器人不但能提供茶水服務，甚至機器人還能知道用戶喜歡的茶水類型。此研究通過與用戶進行互動並觀察反饋，機器人應該學習如何適應用戶，最終機器人會在什麼情況下指出用戶會喜歡哪種服務，如圖2。實際上，不同的用戶自己的需求和喜好。此外，用戶的需求和偏好可能會隨著時間而改變。最重要的是，用戶不直接告訴機器人要什麼樣的服務，如何或什麼時候做動作，機器人必須通過與用戶互動來學習。機器人必須調整其行為以適應不同的用戶。一開始，機器人對用戶的需求和喜好一無所知。根據所收集到的互動經驗，機器人逐漸了解用戶，學習調整行為，使互動和服務更加有效率。

圖 1 服務提供之馬可夫決策模型

圖 2 機器人與用戶的互動學習流程

活 動 / 研 究 成 果

活動 / 研究成果