THU-LEAD张珂博士获CICTP 2020-21 最佳论文奖

2021-12-28

2021年12月19日，张珂博士的论文“Reinforcement Learning for Shortest Path Problem on Stochastic Time-dependent Road Network（基于强化学习的随机时变路网最短路径规划）”荣获第20届、21届CICTP联合会议最佳论文奖。本次会议共接收投稿论文1700余篇，授予最佳论文奖15项，获奖比例约为0.9%。

随机时变路网中确定两个位置之间的最短路径是车辆导航系统的关键问题。然而，传统的启发式算法很难处理道路网络的复杂随机性。张珂博士的文章将随机时变路径问题建模为一个马尔可夫决策过程，并设计强化学习方法来解决该问题，如Sarsa、Q-学习和Double Q-学习方法。Sarsa方法使用实际Q值进行迭代，而不是Q-学习使用的最大值函数。Double Q-学习使用两个估计器计算值函数，用来克服过高估计的缺点。基于十个随机时变路网的实验验证得出Double Q-学习优于其他方法。

THU-LEAD交通科学实验室

010-62785569