Posted in

科学家提出强化学习新方法,迈向决策的统一_AI阅读总结 — 包阅AI

包阅导读总结

1.

关键词:强化学习、可配置镜像梯度下降、多智能体、决策、算法

2.

总结:新加坡南洋理工大学研究人员提出可配置镜像梯度下降算法(CMD)用于多智能体场景,能解决不同场景决策问题。该算法经评估效果良好,审稿人评价高,但仍有改进空间,后续会提升有效性。

3.

主要内容:

– 新加坡南洋理工大学研究人员提出算法

– 名为“可配置镜像梯度下降”(CMD)

– 用于多智能体场景

– 多智能体场景分类及相关算法

– 分为合作、竞争、既有合作又有竞争三类

– 此前各场景有各自算法,交流少

– 研究起源与灵感

– 源于几年前关于统一算法做决策任务的探讨

– 近期领域新成果带来灵感

– 算法的应用与评估

– 能解决不同场景决策问题

– 评估结果良好,审稿人评价高

– 算法的不足与后续改进

– 目前仅基于 tabular 方法,未用神经网络

– 将改善并在更复杂大规模问题上验证有效性

思维导图:

文章地址:https://mp.weixin.qq.com/s/cgw6d6_Td0AGVRFbvyQCwQ

文章来源:mp.weixin.qq.com

作者:DeepTech深科技

发布时间:2024/7/31 7:05

语言:中文

总字数:1617字

预计阅读时间:7分钟

评分:88分

标签:强化学习,多智能体系统,算法创新,决策优化,新加坡南洋理工大学


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

近日,新加坡南洋理工大学的研究人员提出一款名为“可配置镜像梯度下降”(CMD,configurable mirror descent)的算法,并将其用于多智能体场景。
图 |从左到右:李鹏燈、李姝昕、杨昶、王新润(来源:课题组)
据介绍,多智能体又分为合作、竞争、以及既有合作又有竞争等三类场景,每个场景都有自己的算法。学界的研究之间也有重合,但是彼此之间的交流相对较少。
而本次研究起源于几年前课题组闲聊时谈到的一个问题:有没有可能用一个算法做所有的决策任务?
但在当时,他们并没有合适的解决思路。最近一两年,领域内的一些新成果给他们带来了一些灵感。
具体来说:基于策略梯度的强化学习算法(PPO,Proximal Policy Optimization),在单智能体上已经得到广泛广泛。
而在合作多智能体上,人们主要使用“多智能体的基于策略梯度的强化学习算法”(MAPPO,Multi-Agent PPO)和“单智能体的基于策略梯度的强化学习算法”(IPPO,Independent PPO)。
学界最近提出的“磁镜下降算法”(MMD,magnetic mirror descent),可被看作是 PPO 算法的一种变体或者拓展,并被证明在单智能体和两人零和博弈中具备有效性。
这让该团队觉得,是时候针对上述问题开展正式研究了。研究中,他们提出了这款名为“可配置镜像梯度下降”的算法(CMD,configurable mirror descent)。
它能解决不同场景的决策问题,应用场景涵盖单智能体、多智能体合作、多智能体竞争、以及既有合作又有竞争的场景。
为了评估本次算法,课题组提出一个包含 15 个环境的 GameBench,结果发现 CMD 算法能在不同决策场景之下,相比现有方法取得相似、或更好的效果。
对于相关论文,审稿人认为本次方法是对于传统 mirror descent 方法的重要扩展,并能从新的角度提供求解不同类型决策问题的思路。
对于课题组所提出的 GameBench,审稿人也给予高度评价,其认为这样一个多元化的学术友好型基准测试环境,对于整个强化学习领域是一个非常好的贡献。
决策,是无处不在的。而本次算法在一定程度上提供了一套统一的处理方法,因为在使用时无需考虑到底是单智能体、还是多智能体,也无需考虑到底是合作还是竞争,故能实现即插即用的效果。
比如,当将本次算法部署到一个机器人当中,机器人就可以充当 AI 警察来帮助人类警察。
  • 比如,通过和人类警察合作来做出决策(多智能体合作问题);
  • 比如,和人类警察合作追捕罪犯(多智能体混合合作和竞争的问题)。
总的来说,相比之前只能处理一类场景的方法,预计 CMD 算法能够统一处理这些场景下的决策问题,从而让部署变得更加容易。
“当然目前还只是一个初步成果,后续我们也会继续提升算法的有效性。”研究人员表示。
具体来说,目前的 CMD 算法仅仅基于 tabular 方法,并没有使用用神经网络,后续他们将会改善这一问题。
同时,他们也会在更复杂、更大规模的决策问题上验证本次算法的有效性,最终实现即插即用、又快又好的效果。

参考资料:

1.https://arxiv.org/pdf/2405.11746


运营/排版:何晨龙

01/科学家研发三维微反应芯片,已实现维生素D3的化学合成,亦能用于合成高通量纳米材料

02/刘如谦团队升级基因编辑系统,整合效率提高4倍,将基因整合到30%的小鼠细胞和人类细胞中

03/科学家揭示影响自动驾驶商用落地原因,克服片段化场景测试局限性,将仿真与实车测试速度提升1000倍

04/科学家用天然纳米素研制催化剂,实现氢过氧化物的电化学合成,产率高于同类材料数十倍

05/推动后摩尔芯片元器件突破:清华学者多维度探索芯片基础问题,基于新材料研发全适配器件