新智元报道 编辑:编辑部 HNZ 【新智元导读】强化学习之父Richard Sutton和他的导师Andrew Barto,得到了2024年图灵奖。有人说,图灵奖终于颁给了强化学习,这是迟到的「嘉奖」。 2024年图灵奖,颁给了强化学习之父! 就在刚刚,盘算机学会ACM公布:Andrew G. Barto和Richard S. Sutton为2024年ACM图灵奖得到者,以表扬他们为强化学习奠基了概念和算法底子。 继诺贝尔奖之后,AI学者再次将图灵奖收归囊中。 「强化学习之父」Richard S. Sutton和他的导师Andrew G. Barto,都为强化学习做出了奠定性的贡献。 从1980年代开始的一系列论文中,二人就引入了强化学习的焦点理念,构建了数学底子,并开辟了强化学习的关键算法——这是创建智能体系最为紧张的方法之一。 1998年,Sutton和Barto共同撰写了「Reinforcement Learning: An Introduction」(强化学习导论),这本书至今仍被视为该范畴的奠定之作。现在,已被引用了凌驾75,000次。 现在,Barto是马萨诸塞大学阿姆赫斯特分校信息与盘算机科学系的光荣传授。 Sutton是阿尔伯塔大学盘算机科学传授,Keen Technologies的首席研究员,以及阿尔伯塔呆板智能研究所(Amii)的特聘研究员。 ACM A.M. 图灵奖常被誉为「盘算机范畴的诺贝尔奖」,奖金高达100万美元,由谷歌提供资金支持。该奖项以奠基了盘算科学数学理论底子的英国数学家艾伦·图灵(Alan M. Turing)的名字定名。 得知本身得到本年图灵奖的消息时,Sutton感到非常震动。 就在近来,Sutton才刚发文引述了图灵的名言 RL之父和他的博导 AI行业不停积极最大化呆板知识容量。而身处这个行业的Richard Sutton,恒久以来不停在思索一个更为底子的题目——呆板怎样学习? 随着「Reinforcement Learning:An Introduction」的出书,这本强化学习范畴的「圣经」在数十年后,仍旧有着紧张的意义。由于这些头脑本质上看似简朴,却对更广泛的AI行业产生着连续的影响。 Sutton如许表明他的研究方法:研究必须从小处动手;这种底子研究,不会立刻为最新技能带来显着的改进。 早在1978年,二人便开始互助。 其时,Sutton正在马萨诸塞大学阿默斯特分校攻读博士学位,而他的导师正是Barto。随后,Sutton又跟着Barto完成了博士后研究。 他们编写了一些最早的RL算法,就像人类或呆板学习的方式一样,让呆板通过反复试错获取知识。 固然Sutton由此赢得了学术界的赞誉,但在某种水平上,却让他跟谷歌、微软、OpenAI等大公司构建的LLM所代表主流理论,产生了分歧。 在他看来,这些技能只是在模拟人类举动,并未真正熟悉到本身的举措,而且从中学习—— 我以为它们并不在通往AGI的精确门路上。 强化学习的焦点,是确保呆板「从履历中学习」,大概明白反馈并从错误中学习。 然而,LLM是从海量汗青数据中提取信息来天生回应的,以是它们的智能水平也仅仅与其神经网络在给定时间的规模相称。 因此,LLM自然就有一种「愚笨的缺点」。固然可以调解对书面题目的答复,但它们的重要目的,仅仅是确定文本链中的下一个输出而已。 对于现在的很多AI体系,Sutton都评价为「在于你互动时完全不会学习」。 好比在他看来,ChatGPT就不会根据本身的履历改变任何权重;它对效果漫不经心,也真正缺乏认知;它对发生的任何事都不会惊奇,由于它原来对于发生的事就没有任何预期。 Sutton的谷歌DeepMind前同事Michael Bowling云云评价他—— 当天下其他地方都在追逐大语言模子应用时,Rich仍在服从底子研究的阵地。 在以后,当人们盼望看到能真正和人类互动的AI体系,他们大概会心识到,Sutton对强化学习的贡献是多么意义庞大。 而且在已往五年中,RL也越来越被器重。引起环球惊动的DeepSeek,就是用RL通过正反馈循环来练习AI的。 在阿尔伯塔呆板智能研究所(Amii)负责人Cam Linke看来,Sutton是一位为人谦虚、不事宣扬的专业人士。他摒弃了科学范畴常见的传统品级制度或政治因素,对他来说科学过程才是关键地点。 继Geoffrey Hinton和Yoshua Bengio在2018年与Yann LeCun一因由对深度神经网络研究的贡献获奖后,Sutton是最新一位得到图灵奖的加拿大研究者。 他表现,本身将本身看作是一个强化学习智能体,通过履历在各个层面学习,好比踢到脚趾后调解走路的方式,大概担当一份工作,从中得到兴趣。 什么是强化学习? AI范畴通常关注于构建AI智能体——即可以或许感知和举措的实体。 更智能的AI智能体可以或许选择更好的举措方案。因此,知道哪些举措方案更好对AI至关紧张。 嘉奖——这一借用自生理学和神经科学的术语——表现一个提供给AI智能体与其举动质量相干的信号。 强化学习(RL)就是在这种嘉奖信号的引导放学习找到更好举措方案的过程。 从嘉奖中学习的理念对于动物练习师来说已经存在了数千年。 厥后,艾伦·图灵(Alan Turing)在1950年的论文《盘算呆板与智能》中探究了「呆板能思索吗?」这一题目,并提出了一种基于嘉奖和处罚的呆板学习方法。 固然图灵称他曾举行一些开端实行,而且Arthur Samuel在1950年代后期开辟了一个能通过自我对弈举行学习的跳棋步伐,但在随后的几十年里,AI的这一研究方向险些没有取得任何希望。 到了1980年代初,受到生理学观察的开导,Barto和他的博士生Sutton开始将强化学习构建为一个通用题目框架。 他们鉴戒了马尔可夫决议过程(MDP)提供的数学底子,在这个过程中,AI智能体在具有随机性的情况中做出决议,在每次状态转换后吸收嘉奖信号,目标是将恒久累积的嘉奖最大。 与尺度MDP理论假设AI智能体已知MDP的全部信息差别,强化学习框架答应情况和嘉奖是未知的。 强化学习的信息需求最小,联合MDP框架的通用性,使得强化学习算法可以应用于广泛的题目范畴。 Barto和Sutton,无论是互助照旧与其他研究者协作,都开辟出了很多强化学习的根本算法。 包罗他们最紧张的贡献——时间差分学习,它在办理嘉奖猜测题目方面取得了紧张突破,别的另有计谋梯度方法和将神经网络作为表现学习函数的工具的利用。 他们还提出了联合学习和规划的AI智能体计划,证明白将情况知识作为规划底子的代价。 正如前文提到的,「Reinforcement Learning: An Introduction」这本书使数千名研究职员可以或许明白并为这一范畴做出贡献,更紧张的是,它还在继承引发当今盘算机科学中的很多紧张研究运动。 只管Barto和Sutton的算法是几十年前开辟的,但在已往十五年中,通过与深度学习算法(由2018年图灵奖得到者Bengio、Hinton和LeCun开创)相联合,强化学习的现实应用取得了庞大突破——深度强化学习技能。 强化学习最引人注目标例子是AlphaGo盘算机步伐在2016年和2017年克服天下顶尖人类围棋选手。 近几年的另一个庞大成绩是谈天呆板人ChatGPT的出现。 ChatGPT是一个LLM,其练习分为两个阶段,第二阶段接纳了一种称为基于人类反馈的强化学习(RLHF)技能,以更好地捕获人类的盼望和偏好。 强化学习在很多其他范畴也取得了明显乐成。 一个备受瞩目标研究案例是呆板人在手中操纵息争决物理(魔方)题目的活动技能学习,这表明完全在模仿中举行强化学习,终极也大概在明显差别的实际天下中取得乐成。 其他的应用范畴包罗网络拥塞控制、芯片计划、互联网广告、优化算法、环球供应链优化、提拔谈天呆板人的举动和推理本领,乃至改进盘算机科学中最古老的题目之一的矩阵乘法算法。 末了,这项部门受到神经科学开导的技能也反过往返馈了神经科学。近来的研究,包罗Barto的工作,表明人工智能中开辟的特定强化学习算法,为有关人类大脑中多巴胺体系的大量发现提供了最佳表明。 获奖人先容
Andrew Barto是马萨诸塞大学阿默斯特分校信息与盘算机科学系荣誉退休传授。是IEEE和AAAS的Fellow。 Barto于1970年从密歇根大学得到数学学士学位。在阅读了Michael Arbib and McCulloch和Pitts的作品后,他对使用盘算机和数学来模仿大脑产生了爱好,五年后因一篇关于元胞主动机的论文得到了该校的盘算机科学博士学位。 他于1977年作为博士后研究员开始在马萨诸塞大学阿默斯特分校的职业生活,今后曾担当多个职位,包罗副传授、传授和系主任。 此前,他曾得到包罗马萨诸塞大学神经科学终身成绩奖、IJCAI研究杰出奖和IEEE神经网络学会先驱奖在内的浩繁奖项。 Richard Sutton Richard Sutton是阿尔伯塔大学盘算机科学传授,Keen Technologies的研究科学家,以及阿尔伯塔呆板智能研究所(Amii)的首席科学顾问。是AAAI、英国皇家学会和加拿大皇家学会的Fellow。 在2017年至2023年期间,他曾担当DeepMind的良好研究科学家。 在参加阿尔伯塔大学之前,他于1998年至2002年在AT&T香农实行室AI部分担当首席技能专家。 Sutton得到了斯坦福大学生理学学士学位,并在马萨诸塞大学阿默斯特分校得到盘算机与信息科学的硕士和博士学位。 Sutton得到的荣誉包罗国际AI团结会研究杰出奖、加拿大AI协会终身成绩奖和马萨诸塞大学阿默斯特分校良好研究成绩奖。 参考资料: https://awards.acm.org/turing |