2019级博士研究生屈渤浩关于离线强化学习奖励估计的研究已被期刊IEEE Transactions on Knowledge and Data Engineering接收,本篇工作与新加坡科技研究局(A*STAR)Ivor W. Tsang老师、郭青老师和悉尼科技大学张成奇老师合作完成。
论文详情:
论文题目:Transductive Reward Inference on Graph
论文作者:屈渤浩
指导老师:曹晓锋,常毅
收录期刊:IEEE Transactions on Knowledge and Data Engineering
期刊类别:CCF A
论文概述:本研究提出了一种基于奖励信息传播图的直推式奖励推理方法,可以在离线强化学习中有效估计未标记数据的奖励。奖励推理是实际场景中学习有效策略的关键,并且在很多场景中,智能体直接与环境互动的成本过高或风险过大,且奖励函数往往难以获取,例如在医疗和机器人等领域。本研究提出一种基于图结构信息传播的奖励推理方法,通过有限数量的奖励标注来推断未标记数据的奖励。首先利用现有数据和有限的奖励注释构建了奖励传播图,随后利用构建的图进行直推式奖励推理,从而估计未标记数据的奖励。本研究证明了在多次推理迭代过程中确定了固定点的存在,并且其至少可以收敛到一个局部最优解。实验结果上,与现有方法相比,在相同数量的奖励标注下,本研究的推断奖励方法准确性更高,从而提高了该场景下离线强化学习算法的性能。