你的 Agent 稳定吗？——基于大模型的 AI 工程实践思考_AI阅读总结

包阅导读总结

1. 关键词：大模型、Agent、稳定性、工程实践、盒马智能客服

2. 总结：本文基于盒马智能客服场景，从工程角度阐述大模型应用中Agent的稳定性因素及解法，包括幻觉问题、语料处理、异常应对、输出格式兼容等，还提到监控视角下重要节点的监控。

3. 主要内容：

– 背景与介绍

– 大模型应用广泛，Agent的planning能力使其可处理高级事务，但稳定问题凸显。

– 以客服机器人为例

– 原因幻觉问题

– 产生原因包括数据训练不足、模型复杂、语言语义复杂。

– 通过RAG增强、语料训练等缓解。

– Memory补充

– 将用户信息代入prompt帮助RAG，保证memory每轮更新。

– 工程优化

– 进行query重写，提升RAG召回成功率，依赖知识质量。

– 电商语料解法

– 问题：大模型对电商语料中的卡片理解能力弱。

– 解法思路：语言化，重写卡片。

– 需优质打标体系

– 工程重试和异常处理

– 控制循环轮数，避免大模型陷入循环。

– 合理尝试异常处理，重试部分模块。

– 人工托管兜底，处理无法解决和异常情况。

– 兼容Agent输出格式，进行异常处理。

– 监控

– 监控大模型和Tool调用情况。

思维导图：

文章地址：https://mp.weixin.qq.com/s/dO0Dku8mh-VVgZDTvs9aHA

文章来源：mp.weixin.qq.com

作者：庭初

发布时间：2024/8/18 8:40

语言：中文

总字数：5254字

预计阅读时间：22分钟

评分：91分

标签：AI Agent,大模型,稳定性优化,电商客服,RAG

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

本文总结了作者在盒马智能客服的落地场景下的一些思考，从工程的角度阐述对Agent应用重要的稳定性因素和一些解法。

随着大模型技术的发展，越来越多的大模型应用开始涌现，并且应用到越来越多的业务场景中，比如AIGC生图、小蜜机器人、客服机器人、自动文档处理等等；并且Agent的planning能力使得基于大模型的底座，AI应用可以处理越来越高级的事情。

但是随着大模型的广泛应用，在面对各种复杂的场景时，其稳定问题也变得凸显，比如Agent的回答幻觉问题、知识语料训练质量问题、工程重试和异常处理问题，都对Agent的稳定性有影响；当然基座的能力也至关重要，但是本人从工程的角度来阐述同样对Agent应用重要的稳定性因素和一些解法。

本人目前在参与盒马AI智能应用的项目中，包括智能小蜜机器人、智能客服、AIGC等项目，本文也是在盒马智能客服的落地场景下的一些思考。

AI Agent，即人工智能代理，是一种能够感知环境、做出决策并执行操作的智能实体。与传统的人工智能不同，AI Agent 具备自行思考并使用工具逐步实现目标的能力。举例来说，如果你告诉 AI Agent 代理的退款系统进行退款办理，它可以通过意图确认（退款哪个商品、退款原因、退款是否和比例判断）和用户进行交互，并自动调用退款系统进行退款，无需人工指定每个步骤。

prompt：提示词；

Chain: 将多个任务或操作按照一定的顺序组合起来，以实现特定目标的方法；

LLM：大模型基座；

Tools: Tool的参数定义、描述定义和逻辑实现；

Actions: Agent Planning下一步做的事情；

首先从业务场景来看，本人以客服机器人这个典型应用场景为例：

业务背景：电商；

知识结构：知识库（QA形式维护，且有相似问）；

用户群体：售前咨询/下单顾客；

3.1.1 原因

幻觉问题在LLM（大型语言模型）应用开发中是一个常见的问题。幻觉指的是模型在生成文本时产生的错误信息、无根据的断言或不真实的内容。这些内容虽然可能看起来表面上合乎逻辑和流畅，但它们并不基于事实或现实的数据。其原因包括：

1.数据训练不足或质量不高：模型可能基于有限或不准确的数据进行训练，导致其生成的内容缺乏真实依据；

2.模型复杂性：复杂的模型可能更容易产生不合理的联想和推断；

3.语言和语义的复杂性：自然语言本身具有模糊性和多义性，这可能导致模型产生误解。

3.1.2 RAG增强

通过基于知识召回的RAG，初步解决80%的幻觉问题；
通过prompt提示，在RAG也没相关的情况下，给出没知识不要硬达或者乱达的提示，缓解幻觉问题；
语料训练，通过算法的微调让模型学习真实的正确小二回答数据；

说明：不同业务场景对于RAG的要求有区别，像内外小蜜等小蜜系列，关于RAG非常深的研究，包括检索、生成等，小蜜场景更多是一问一答，对于RAG的知识质量要求非常高；而在Agent的场景中，Agent重点是planning能力和Tool精准调用的，但是RAG仍然是Agent重要的模块，是Agent稳定性的保障。

3.1.3 Memory补充

对于业务场景，很多时候用户本身的信息，决定了回答的准确度。

user: 我的XX卡折扣是多少？aiAssistant: ?

（相似问：XX卡的折扣是多少？XX卡怎么打折的……）

Answer: 对于初级会员打5折，对于高级会员打6折，对于XX会员打XX折；

那么当没有用户身份的时候，进入大模型的回答，基于RAG成功召回的case，大概率会是对于Answer的改写。

user: 我的XX卡折扣是多少？aiAssistant:您好，我们的会员卡对于不同会员折扣不同，初级会员是5折，.....

少数情况会直接吐出一个折扣或者反问；直接吐出的情况就有概率错误；反问的话，其实逻辑上没问题，但是对于可以直接获取的信息，其实增加了Agent对话的复杂度，不够智能。

1.将memory信息代入用户的prompt，构建对于业务有判断作用的信息，包括用户信息、订单信息（咨询主体）、店铺信息，用于帮助RAG发挥更大的效果，比如用户是高级会员的信息代入memory并进入prompt，最后的效果就是如下：

user: 我的XX卡折扣是多少？aiAssistant: 您好，您是尊贵的高级会员，XX卡可以享受6折的折扣优惠；

2.其中某些对象可能会随着用户的咨询而更新，比如用户的咨询主体，要保证memory有每轮次ReAct前更新的操作。

3.1.4 工程优化

进行query重写，补全语句缺失实体，或者错误语义改写一下，提升RAG召回的成功率；技术方案也是走LLM的；比如：

user: 我买了个糕点吃不完了aiAssistant: 您好，您是买的哪一款糕点，有什么问题呢？user: 保质期多久呢

user: 我买了个糕点吃不完了aiAssistant: 您好，您是买的哪一款糕点，有什么问题呢？user: 糕点的保质期有多久呢？

这是比较棘手的问题，知识库中有一些过时的数据，但是其关键字又很像，结果被embedding召回回来产生了干扰，RAG的质量，还是较强的依赖源头本身知识的质量；需要业务配合进行正确维护和管理。

3.2.1. 问题

在电商领域为例，现阶段的核心数据是语料，但是其中包含大量的卡片，大模型对于卡片的理解能力偏弱。

3.2.2 解法思路：语言化

因为LLM的语料以自然语言为主，但是在客服、小蜜等大量的语料场景中，卡片非常多。

那么在语料中，可能就是(随意以JSON举个例子，实际要复杂)：

user: 我买的苹果保质期多久aiAssistant："{\n"      + " \"type\": orderSelector,\n"      + " \"width\": 5,\n"      + " \"height\": 3,\n"      + " \"orderId\": 12345,\n"      + " \"showXXX\": false,\n"      + " \"title\": \"请问是。。。。。\",\n"      + " \"itemName\": \"\",\n"      + " ....\n"      + "}"user: "{\n"      + " \"type\": \"XX\",\n"      + " \"isSelect\": true,\n"      + " \"content\": \"orderId: XXXX\",\n"      + " \"content\": \"orderName: XXXX\",\n"      + " ....\n"      + "}"

那么这样的语料灌进LLM推测或者训练，对于大模型就很吃力了。

user: 我买的苹果保质期多久aiAssistant：请问您是要确认XX时间买的XX元的XX商品订单吗？(目前这个订单状态是XX)user: 是的，我就是确认这个XX商品订单的问题

好了，这时候大模型不用去管无聊的JSON结构和Id这种字段了。

并且可以通过拼接直接实现，可以对整个电商的所有卡片，基于type格式，在Agent运转层/语料层进行重写；大大提升电商卡片场景的理解程度。

3.2.3 需要优质的打标体系

由于agent并不是永远稳定，其输出的内容和格式存在一定的随机性，对于ReAct模式，可能会有陷入循环的问题，导致Agent智能体不响应；其次Agent可能会遇到较多的异常case，其表现可能是未知的，所以需要对于Agent框架进行异常的处理和兜底；一个简单的Agent运转抽象如下：

3.3.1 控制循环轮数

首先，Agent的rethink模式，决定了一些异常case下大模型是可能陷入循环问题（比如成功调用Tool输出，但是没有相关数据，Agent可能会一直调用）。

3.3.2 Agent异常时如何合理的尝试？

对象包括组装prompt、LLM调用、输出解析、Tool调用，这边Agent建议按照特点决定是否重试某些模块。

重试代价高的（超过1s的）；
有幂等性的Tool；
其他handle不了的异常；

3.3.3 代替人的Agent 的兜底——人工托管

重要场景下的AI应用一定是要有人工托管的，从copilot模式像AI托管模式迈进，这是渐进的必要灰度保障和最后兜底；就像武汉的萝卜快跑背后是有人工监管的，在重要的情况完成接管。

在电商客服Agent场景也是，在无法解决的场景和异常时，Agent通过返回接管信号，让背后的小二进入接管AI，恢复人工对话模式。

总之，人工托管的兜底，给了Agent应用可以先灰度上线积攒宝贵经验的可能，再通过扩大Agent基座能力和业务场景，逐步完善Agent能力。

3.3.4 Agent输出格式的兼容

和孔乙己回字的N种写法一样，在实际很多Agent中，期望大模型的回复是一个JSON的String格式，实际的格式还是会在单模型中有随机性，并且在不同模型的回复中有明显的差异性；适配变得很重要。

 "Tools": {    "api_name": "XXTool",    "parameters": [      {        "name": "xxId",        "value": "12345"      }    ]  }

"Tools": [{    "api_name": "XXTool",    "parameters": [      {        "name": "xxId",        "value": "12345"      }    ]  }]

"Tools": [{    "api_name": "XXTool",    "parameters":       {        "name": "xxId",        "value": "12345"      }      }]

"Tools": {    "api_name": "XXTool",    "parameters":       {        "name": "xxId",        "value": "12345"      }    }

1.构建清晰和典型的few-shot，在prompt中给出示例；

2.实现一个异常处理链路，比如先做剔除前后空字符的直接JSON解析，再进行中文冒号的异常case替换尝试解析，再进行花括号缺失情况的异常case匹配(补充花括号)；那么所有链式节点尝试都失败了，那就报错；（链太长时也可以考虑并发一下）

3.如果还是不稳定。尝试降低 temprature 参数的值让结果更稳定。

OpenAI近日在其API引入了结构化输出，这应该会缓解JSON解析的问题，待更新和跟进验证其效果。

首先从监控的视角，一个系统，无非是很多点连成的线，对于每个点的监控以及端到端的监控，是常见的思路；目前这里先focus在重要节点的监控，其维度如下：

核心的目标，就是监控大模型的调用情况，Tool的调用情况，目前先用Sunfire做一版简单的版本。

本方案结合通义千问和LangChain技术构建高效的对话模型，该模型基于自然语言处理技术提升语义理解和用户交互体验。它可以有效解决传统对话模型在理解能力和交互效果上的局限，使得用户沟通更加自然流畅，被广泛应用于聊天机器人、智能客服和社交媒体等多种场景。

点击阅读原文查看详情。

分类

你的 Agent 稳定吗？——基于大模型的 AI 工程实践思考_AI阅读总结 — 包阅AI