365bet官网
当前位置: 365bet > 365bet官网 > 正文
我院本科学子在国际顶会NeurIPS2020研讨会发表论文
发布时间 : 2020-11-20     点击量:

近日,365bet2016级本科生汪宇豪作为主要参与人撰写的论文“Amortized Variational Deep Q Network”,被国际人工智能顶级会议NeurIPS2020(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)的Deep Reinforcement Learning Workshop录用。NeurIPS作为学术界、工业界公认的人工智能领域国际顶级会议的翘楚,代表着当今人工智能研究的最高水平。

这篇论文聚焦目前机器学习的研究热点—强化学习算法,针对现有算法探索能力不足的问题,创造性地提出了基于均衡变分推断的深度Q网络方法。该方法的主要思想是将Q网络的输出(即动作价值函数)看作随机变量,使用均衡变分推断网络估计该随机变量的后验分布。文中使用了重尾的柯西分布加强探索(exploration),使用细尾的高斯分布加强利用(exploitation)。在gym库中的Atari游戏和马尔科夫链问题上的实验表明,文中的方法比现有深度Q网络有更好的探索能力,在复杂的问题上表现更加突出;相比现有最新的强化学习方法,此方法参数量更少,训练速度更快,探索能力更强。

汪宇豪是学院2016级本科生,2017年参加了学院组织的赴加拿大阿尔伯塔大学暑期交流项目,大四跟随孙建永教授做毕业设计,开启了自己的科研之路。比起知识的传授,孙建永老师更加注重学生创新性科学思维的树立和科研精神的培养,教学科研任务十分繁重的情况下,他坚持每周开展讨论班,掌握学生的研究进程,深入讨论科研问题,并对学生的每篇论文悉心修改、指点迷津,引导学生开拓研究思路,鼓励学生攻坚克难,不断提升科研能力。

正是在孙建永老师不断的引导和启发下,汪宇豪阅读了大量国际前沿领域文章,逐步找到了自己喜欢和探索的领域——强化学习。从论文的前期准备到最终投稿,孙建永老师都给予了极大的支持和鼓励,除了在讨论班和办公室的现场指导外,微信上也满满的都是孙老师与他们进行学术讨论与交流的记录。通过与老师的反复交流讨论,在一次次发现问题和解决问题过程中,汪宇豪逐渐培养了严谨认真的数学思维、精益求精的科学态度和勇于创新的数学精神。孙老师还鼓励汪宇豪出国深造,在强化学习领域继续攀登学术高峰,并积极帮助他联系国外知名高校。在毕业后等待录取的几个月,孙老师让他担任科研助理,全力以赴支持他继续研究。功夫不负有心人,在毕业三个月后,汪宇豪作为主要参与人的论文被国际顶会NeurIPS2020研讨会录用,这也是对他一直以来的不懈努力和孙老师悉心指导的高度肯定和认可。

汪宇豪成绩的取得亦是学院创新性人才培养改革的重要体现。学院始终坚持培养具有家国情怀、国际视野,既有扎实数学基础,又突出交叉应用的复合型数学人才,为每一位本科生安排了学业导师,每周对学生进行思想引导和专业指导,组织“数之韵”“数之理”“院士讲数学”等系列讲座,激发数学兴趣,提升专业素养。同时,学院搭建高水平科研平台,鼓励学生创新创业,支持学生出国交流,为学生成长成才创造了良好的环境。

 

陕西省西安市碑林区咸宁西路28号     版权所有 :365bet·(中国)官方网站

邮编:710049     电话 :86-29-82668551     传真:86-29-82668551