能問對問題的機器人：透過針對性解釋修正報酬偏差

arXiv - Human-Computer InteractionHelena Merker, Nick Walker, Andreea Bobu2026年5月25日

利用演示變異性辨識未充分示範的特徵，並以自然語言詢問以提升報酬學習精度

AI 幫你先抓重點

AI 重點 1

演示變異性可作為特徵充分性指標，提供自動化詢問機制

滑鼠懸停看 AI 判斷理由

此洞察將被動數據轉化為主動學習，降低歧義並提升報酬對齊，對安全機器人部署至關重要。

AI 重點 2

自然語言解釋使人機互動更直覺，促進使用者對機器人學習過程的信任與參與

滑鼠懸停看 AI 判斷理由

說明不僅提升技術表現，更增強人類對模型不確定性的理解與信任，對實務採用至關重要。

教育工作者可將此框架應用於機器人教學，透過分析學生示範的變異性辨識學習盲點，並以自然語言詢問補足缺失，提升教學目標與學習成效。此方法亦可延伸至其他自動化評量系統，強化教師對模型不確定性的可視化與介入。

英文標題：: Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations
作者：: Helena Merker, Nick Walker, Andreea Bobu
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。