科学家提出强化学习新方法，迈向决策的统一_AI阅读总结

包阅导读总结

关键词：强化学习、可配置镜像梯度下降、多智能体、决策、算法

总结：新加坡南洋理工大学研究人员提出可配置镜像梯度下降算法（CMD）用于多智能体场景，能解决不同场景决策问题。该算法经评估效果良好，审稿人评价高，但仍有改进空间，后续会提升有效性。

主要内容：

– 新加坡南洋理工大学研究人员提出算法

– 名为“可配置镜像梯度下降”（CMD）

– 用于多智能体场景

– 多智能体场景分类及相关算法

– 分为合作、竞争、既有合作又有竞争三类

– 此前各场景有各自算法，交流少

– 研究起源与灵感

– 源于几年前关于统一算法做决策任务的探讨

– 近期领域新成果带来灵感

– 算法的应用与评估

– 能解决不同场景决策问题

– 评估结果良好，审稿人评价高

– 算法的不足与后续改进

– 目前仅基于 tabular 方法，未用神经网络

– 将改善并在更复杂大规模问题上验证有效性

思维导图：

文章地址：https://mp.weixin.qq.com/s/cgw6d6_Td0AGVRFbvyQCwQ

文章来源：mp.weixin.qq.com

作者：DeepTech深科技

发布时间：2024/7/31 7:05

语言：中文

总字数：1617字

预计阅读时间：7分钟

评分：88分

标签：强化学习,多智能体系统,算法创新,决策优化,新加坡南洋理工大学

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

近日，新加坡南洋理工大学的研究人员提出一款名为“可配置镜像梯度下降”（CMD，configurable mirror descent）的算法，并将其用于多智能体场景。

图 |从左到右：李鹏燈、李姝昕、杨昶、王新润（来源：课题组）

据介绍，多智能体又分为合作、竞争、以及既有合作又有竞争等三类场景，每个场景都有自己的算法。学界的研究之间也有重合，但是彼此之间的交流相对较少。

而本次研究起源于几年前课题组闲聊时谈到的一个问题：有没有可能用一个算法做所有的决策任务？

但在当时，他们并没有合适的解决思路。最近一两年，领域内的一些新成果给他们带来了一些灵感。

具体来说：基于策略梯度的强化学习算法（PPO，Proximal Policy Optimization），在单智能体上已经得到广泛广泛。

而在合作多智能体上，人们主要使用“多智能体的基于策略梯度的强化学习算法”（MAPPO，Multi-Agent PPO）和“单智能体的基于策略梯度的强化学习算法”（IPPO，Independent PPO）。

学界最近提出的“磁镜下降算法”（MMD，magnetic mirror descent），可被看作是 PPO 算法的一种变体或者拓展，并被证明在单智能体和两人零和博弈中具备有效性。

这让该团队觉得，是时候针对上述问题开展正式研究了。研究中，他们提出了这款名为“可配置镜像梯度下降”的算法（CMD，configurable mirror descent）。

它能解决不同场景的决策问题，应用场景涵盖单智能体、多智能体合作、多智能体竞争、以及既有合作又有竞争的场景。

为了评估本次算法，课题组提出一个包含 15 个环境的 GameBench，结果发现 CMD 算法能在不同决策场景之下，相比现有方法取得相似、或更好的效果。

对于相关论文，审稿人认为本次方法是对于传统 mirror descent 方法的重要扩展，并能从新的角度提供求解不同类型决策问题的思路。

对于课题组所提出的 GameBench，审稿人也给予高度评价，其认为这样一个多元化的学术友好型基准测试环境，对于整个强化学习领域是一个非常好的贡献。

决策，是无处不在的。而本次算法在一定程度上提供了一套统一的处理方法，因为在使用时无需考虑到底是单智能体、还是多智能体，也无需考虑到底是合作还是竞争，故能实现即插即用的效果。

比如，当将本次算法部署到一个机器人当中，机器人就可以充当 AI 警察来帮助人类警察。

比如，通过和人类警察合作来做出决策（多智能体合作问题）；

比如，和人类警察合作追捕罪犯（多智能体混合合作和竞争的问题）。

总的来说，相比之前只能处理一类场景的方法，预计 CMD 算法能够统一处理这些场景下的决策问题，从而让部署变得更加容易。

“当然目前还只是一个初步成果，后续我们也会继续提升算法的有效性。”研究人员表示。

具体来说，目前的 CMD 算法仅仅基于 tabular 方法，并没有使用用神经网络，后续他们将会改善这一问题。

同时，他们也会在更复杂、更大规模的决策问题上验证本次算法的有效性，最终实现即插即用、又快又好的效果。

参考资料：

1.https://arxiv.org/pdf/2405.11746

运营/排版：何晨龙

01/科学家研发三维微反应芯片，已实现维生素D3的化学合成，亦能用于合成高通量纳米材料

02/刘如谦团队升级基因编辑系统，整合效率提高4倍，将基因整合到30%的小鼠细胞和人类细胞中

03/科学家揭示影响自动驾驶商用落地原因，克服片段化场景测试局限性，将仿真与实车测试速度提升1000倍

04/科学家用天然纳米素研制催化剂，实现氢过氧化物的电化学合成，产率高于同类材料数十倍

05/推动后摩尔芯片元器件突破：清华学者多维度探索芯片基础问题，基于新材料研发全适配器件