报告题目:决策大模型:两种范式的发展
报告摘要:
以GPT为代表的生成式大模型拥有强大的建模能力,尽管如此,它“漫无目的”生成的文本其实对用户并没有很大的帮助。相比之下,和人类指令对齐的ChatGPT则能带给用户明显的好感,因为它带给了用户实在的价值。ChatGPT人在环路的强化学习训练方法揭示了,“有目的性的”、带给用户实在价值的文本生成其实是一种决策任务。在本次报告中,我首先讨论基于无监督学习的生成式任务和基于强化学习的决策任务的相同和不同,摸清楚其边界。进而我将讨论生成式大模型的未来发展,即决策式大模型,介绍其相关的基础原理和应用实践。具体地,我将从两种技术范式讨论决策大模型,一是在标准API可调用的场景下以大语言模型为基座的方法,又称AI Agent;二是在非标控制场景下的强化学习大容量模型和训练方法。最后我将总结决策大模型目前的挑战,并展望未来发展趋势。
报告人简介:
张伟楠博士现任上海交通大学计算机系长聘副教授、博士生导师,科研领域包括强化学习、决策大模型、信息检索和数据科学,相关的研究成果在国际会议和期刊上发表100余篇CCF-A类学术论文,谷歌学术引用1万余次,获得5个最佳论文奖项,入选爱思唯尔中国高被引学者,出版教材《动手学强化学习》、《动手学机器学习》,相关成果被应用于华为鸿蒙系统,产生了显著的经济效益。张伟楠长期担任TPAMI编委、FCS期刊的青年编委以及NeurIPS、ICML、IJCAI、AAAI等会议的领域主席。作为负责人承担国家自然科学基金优秀青年项目和科技部重大项目课题,获得吴文俊人工智能优秀青年奖和达摩院青橙奖。张伟楠于2011年在上海交通大学计算机系ACM班获得学士学位,于2016年在伦敦大学学院计算机系获得博士学位。
主办单位:澳门官方十大网投平台
报告时间:2024年1月12日(星期五)上午9:00
报告地点:正新楼3楼澳门官方十大网投平台报告厅