Posted in

百川智能联合天津大学探索智能体框架,登顶大模型复杂任务榜单 GAIA_AI阅读总结 — 包阅AI

包阅导读总结

1. 百川智能、智能体框架、GAIA、Sibyl System、大模型

2. 百川智能联合天津大学推出“Sibyl System”Agent 框架并登顶 GAIA 榜单。GAIA 是新评测方案,题目接近真实世界具挑战性。Sibyl System 设计理念独特,能解决复杂推理问题,实现模型从“快思考”到“慢思考”转变,且可扩展性好易调试。

3.

– 百川智能联合天津大学探索智能体框架

– 推出“Sibyl System”Agent 框架,成功登顶 GAIA Leader Board

– 关于 GAIA

– 由 Meta、Huggingface、AutoGPT 提出的全新评测方案

– 评测 Agent 复杂任务执行能力

– 题目接近真实世界,对模型极具挑战

– “Sibyl System”特点

– 类人浏览器界面替代检索增强生成问答

– 用少量通用工具替代专用工具

– 以共享长期记忆为核心,引入“陪审团”机制

– 重视可扩展性且易于调试

思维导图:

文章地址:https://mp.weixin.qq.com/s/twLjiGq1Fy9LNQYXG6vE9A

文章来源:mp.weixin.qq.com

作者:百川大模型

发布时间:2024/7/23 10:57

语言:中文

总字数:1644字

预计阅读时间:7分钟

评分:87分

标签:智能体框架,大语言模型,GAIA评测,多模态理解,工具调用


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

日前,百川智能联合天津大学推出“Sibyl System”Agent框架,成功问鼎GAIA Leader Board。

学术界从很早以前就已开展了对Agent (智能体)技术的探索,但受限于技术发展始终无法在通用领域取得实用性进展。

大语言模型的出现,带来了通用可泛化的智能,再次让Agent(智能体)成为业内关注的焦点。

大语言模型+Agent可以做到理解人类指令,提出规划及工具调用完成指定工作,被喻为打通人工智能落地应用的最后一环。

什么是GAIA?

GAIA是2023年11月由Meta、Huggingface、AutoGPT 一起提出的全新评测方案(主要评测Agent复杂任务执行的方案和能力)。

这个评测体现出现有模型的能力缺陷,为模型和 Agent 的研发指出了改进方向。

区别于MMLU、BBH这类综合知识评测,GAIA的题目更接近真实世界:

  • 需要 AI 具备推理、多模态理解(文本、图片、音/视频)、网页浏览和使用工具等能力

  • 题目概念对人类来说不难理解,但对模型却极具挑战性。GPT-4在测试中成功率仅为15%,而人类实验者可以达到92%

  • 完成题目的逻辑链路较长:大多需要 10 步左右的流程,1-3个工具来完成

  • 单个题目的完成耗时较长:人类完成一个题目的时间大致需要 6-17 分钟

GAIA的测试集难度分三挡,示例如下:

Level 1:

What was the actual enrollment count of the clinical trial on H. pylori in acne vulgaris patients from Jan-May 2018 as listed on the NIH website?

美国国立卫生研究院网站上列出的2018年1月至5月在寻常痤疮患者中进行的幽门螺杆菌临床试验的实际入组人数是多少?

Level 2:

If this whole pint is made up of ice cream, how many percent above or below the US federal standards for butterfat content is it when using the standards as reported by Wikipedia in 2020? Answer as + or – a number rounded to one decimal place.

如果这一整品脱都是由冰淇淋组成的,当使用2020年维基百科报道的美国联邦黄油脂肪含量标准时,其黄油脂肪含量相对于该标准是高出多少百分比还是低于多少百分比?答案请以 + 或 – 一个数值,并四舍五入至小数点后一位。

Level 3:

I was referencing each of the tables in the file from papers that were cited by the “Trans fatty acid contents in chocolates and chocolate wafers in Turkey” paper. I lost my own reference sheet and need to know which of the papers each table came from. The file may not use the full table caption. If the references in the”Trans fatty acid” paper bibliography were numbered starting with 1, give me the numbers in the order that they would be used to fill the cells in the Excel file from top to bottom, as a comma separated list.

我正在引用文件中各个表格,这些表格来自被《土耳其巧克力和巧克力威化中的反式脂肪酸含量》论文引用的论文。我丢失了自己的参考单,需要知道每个表格分别来自哪篇论文。文件中可能未使用完整的表格标题。如果《反式脂肪酸》论文参考文献中的引用是从1开始编号的,请按照从上到下填充Excel文件单元格的顺序,给我一个用逗号分隔的编号列表。


Sibyl System 简单有效的推理Agent框架

良好的评测体系能够帮助我们快速迭代,确保在Agent 技术上处于领先地位。

Agent的探索也可以帮我们理解当前这一代模型的能力边界,避免在模型研发上尝试解决不可能解决的问题。

另外,如何解决耗时更长(小时、天、月)的任务也是下一代 AI 系统的核心问题。

为此,我们设计了“Sibyl System”Agent框架,它的设计理念有如下特点:

  • 类人的浏览器界面替代检索增强生成

  • 问答替代对话,Sibyl 使用无状态的问答函数,简化了系统架构,便于维护和修改。

  • Sibyl 只使用两个工具:网页浏览器和 Python 环境,用更少的通用工具,替代更多的专用工具

  • 从System1 到 System2,以共享长期记忆作为核心,并引入“陪审团”机制,通过多代理辩论进行自我批评和修正,利用全局工作区中的信息提高响应的准确性。


简而言之,Sibyl System是一个结构简单但能力强大的LLM-based Agent framework,能够通过充分利用少量的工具来解决复杂的推理问题。

通过引入 Global Workspace和Multi-Agent ,以及基于浏览器的通用信息获取渠道,在降低系统复杂度的同时,将能够解决问题的复杂度从人类耗时几分钟能处理的事项扩展到几十分钟乃至小时和天的级别,从而实现模型从“快思考”到“慢思考”的转变。

同时,Sibyl从设计之初就重视良好的可扩展性且易于调试,因此可以轻松替换其它模型的Agent模块,提升模型相应能力。

有关Sibyl System更多细节详见技术报告:

https://arxiv.org/pdf/2407.10718