Posted in

单核 QPS 提升 10 倍,亿级日调用!QQ 频道前端网关升级之路_AI阅读总结 — 包阅AI

包阅导读总结

1.

关键词:QQ 频道、前端网关、性能优化、可观测性、Node 方案

2.

总结:本文介绍了 QQ 频道前端网关的升级历程,包括背景、方案选型、遇到的问题及解决办法,如 tRPC 协议转换、应对黑产攻击、解决请求超时等,还提及性能优化、支持 WebSocket 等成果,最后总结选择 Node 方案的原因。

3.

主要内容:

– 生于 B 端:先让自己满意

– 传统调用 RPC 接口流程繁琐,分析 tRPC 协议结构,通过对 HTTP 路径约定实现消费 tRPC 接口。

– 长于 C 端:跨越边界

– 小程序接入面临挑战,需明确请求链路,根据不同服务场景进行请求元信息转换,实现协议转换。

– 提升安全/可用性

– 安全:遭遇黑产攻击,配置安全策略。

– 可用性:解决请求超时,发布自检保证服务稳定。

– 提升性能/效率:实用第一

– 性能:改造 TSW/NGW,提升单核 QPS 和请求成功率。

– 支持 WebSocket:选择协议、低成本接入、保证消息可靠送达。

– 效率:沉淀文档,建设工具。

– 提升可观测性:深度是被逼出来的

– 分析错误比例上升问题,最终发现是缓存机制缺失,实现应用内链接缓存和复用,并完善监控。

– 总结:以躺平的心态完成不躺平

– 介绍选择 Node 方案的原因,包括使用体验、稳定性、响应及时高效、性能持续优化及业务需求。

思维导图:

文章地址:https://mp.weixin.qq.com/s/R4OHIOhcSb2QsR_D1Z-wKw

文章来源:mp.weixin.qq.com

作者:付志远

发布时间:2024/6/17 9:50

语言:中文

总字数:8528字

预计阅读时间:35分钟

评分:84分

标签:性能优化,Node.js,WebSocket,可扩展性,网关架构


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

👉目录

1 生于 B 端:先让自己满意

2 长于 C 端:跨越边界

3提升安全/可用性

4提升性能/效率:实用第一

5提升可观测性:深度是被逼出来的

6 总结:以躺平的心态完成不躺平

在流量增长、功能扩展的背景下,叠加性能优化的内在要求,把一个协议转换发展为业务网关,过程有多曲折?选型又有哪些考虑?为什么放弃了JSAPI(客户端方案)、HTTPSSO(后台方案),最后选择了Node(前端)方案?

本文亮点提炼:
每日请求量从几千到上亿
小程序和H5都能使用腾讯开源tRPC接口
单核QPS从2K提升至2W
请求成功率从99.985%提升至99.997%
性能:支持WebSocket

本文通过介绍整个历程中遇到的关键问题和解决办法,提供网关建设中的一些可复用经验。长文干货,建议先点赞收藏,慢慢品阅!

(从左到右的量级为累计)

如果一句话形容这一路:拼命维持服务稳定,小心谨慎增加功能。

1.1背景

传统调用 RPC 接口的流程可以概括为三个经典步骤:
而且,如果接口协议发生变更,就必须不断重复这三个步骤。

1.2分析

调用 RPC 接口相比于调用 HTTP 接口更加繁琐,根本原因在于 proto 文件的存在。那么,我们是否有办法摆脱依赖于 proto 文件呢?
为了回答这个问题,让我们先来仔细分析 tRPC 协议的结构和组成:
在 tRPC 协议中,消息由帧头和包头组成,类似于 HTTP 头部,包含了请求的基本信息,如请求类型、协议版本和包大小等。而包头则是一段可变长度的二进制数据,同样使用 proto 进行定义和序列化。我们来看一下它的结构:

message RequestProtocol { uint32 version = 1;
uint32 call_type = 2;
uint32 request_id = 3;
uint32 timeout = 4;
bytes caller = 5;
bytes callee = 6;
bytes func = 7;
uint32 message_type = 8;
map<string, bytes> trans_info = 9;
uint32 content_type = 10;
uint32 content_encoding = 11;}

1.3思路和实现

  • 只需对 HTTP 的路径进行一致性约定,即可按照固定规则提取出 RequestProtocol 中的 callee 和 func;例如,频道使用的约定如下:
    • HTTP 头中的其他信息可以根据业务场景映射到 trans_info 中;
  • 包头的 proto 固定,我们使用这个固定的 proto 把上面的数据序列化为二进制。
关键的一步是 tRPC Body,我们不再依赖业务接口的 Proto,而是直接使用 JSON.stringify 来序列化 HTTP 的 Body(如果是 GET 请求,则获取 URL 中的查询参数)。
至此,tRPC Header + tRPC Body 就构成了完整的请求包,可以进行发送。

1.4 效果

后台部署即可调用,与 HTTP 调用一样简单。至此,我们终于能够轻松地消费 tRPC 接口了。

2.1 背景:小程序接入

小程序 和 H5 能这样使用后台的 tRPC 接口吗?
初步看来,只需调整鉴权方式,将内网的智能网关鉴权切换到外网的 ptlogin 即可。
然而,实际情况并非如此简单,因为我们忽略了一个关键的请求链路:JSAPI(通过 APP 发送请求)。
为了让开发小程序和 H5 的团队能够顺利调用 tRPC 接口,必须弄清楚:APP 的请求是如何到达业务 Server 的。只有在理解了这个过程之后,才能确保最终发包时的结构是一致的。

2.2方案

这个问题有点像:从浏览器输入 URL 到显示页面发生了什么。
  1. 标准服务场景:直接与后台 Server 进行通信。;
  2. 经过 OIDB 代理的服务场景:借助 OIDB 代理和后台 Server 通信。
  3. 经过 SSO 代理的服务场景:借助 SSO 代理和后台 Server 通信。
  • 请求元信息转换按照 QQ 频道后台 tRPC Server 的默认约定进行。(这里略过,不同业务有不同约定)

2.3 成果:难路是捷径

  • 第一次和这么多团队打交道:客户端、跨平台、基础平台、互联、业务后台。

  • 两周打了最多的电话,麻烦了十几位大佬请教代码逻辑、开权限。

  • 参照 QQ NT 和 SSO,实现了第一版协议转换,可以从 JSAPI 无缝切到 HTTP,向更灵活的服务调用模式迈出关键一步;

  • 此外,对 QQ 频道的服务架构和网络链路有了整体框架,很快在下次问题定位中派上了大用场;

小程序/H5 接入后,相较于 JSAPI,开发和联调不再依赖 QQ 客户端,大大提高了效率:

3.1 安全:遭遇黑产(背景)

  • 频道邀请链接和一个无鉴权的分享接口(对应协议转换服务)调用飙升;
这时惯常的 Debug 模式不再适用,必须直切要害:依赖之前的经验,判定最可能的原因,然后直奔主题。
  • 短链码服务高负载,但是进程没挂,而且扩容没有让失败率略微下降!
  • 某个服务链接数有限制,或者耗尽,而且最有可能是 MySQL。
立即在日志中以 connection pool 为关键字检索,猜测得到了证实。
扩大 connection pool、缩容 pod 后,需要尽快找到流量上涨的原因,若网关和下面几个服务负载持续上升,可能会随时引发服务不可用的风险。
在排除了运营活动和压力测试的可能性后,我们通过分析流量特征(如 IP、UA 等信息)迅速识别出了黑产攻击的存在。随即,安全团队介入处理,成功保障了业务服务的稳定运行。
  • 针对无鉴权的接口,一定要配置安全策略,对 IP、UA 等进行更严格的限频;
  • 特别关注 k8s 二次扩容特性,的二次扩容特性,虽然它是一种紧急保命策略,但也可能引发其他问题(比如这里):
此次事件也促使我们重新关注安全问题,对服务的整体安全状况进行了深入的排查与反思:

3.2 可用性:请求超时

背景

作为 QQ 频道的核心入口,发现页小程序对性能的要求极为苛刻,绝不能容忍任何形式的超时现象。

问题分析

明确了这点,问题定位就可以有条不紊的展开了:只要捞出一个具体 case 扒到底,bug 就能揪出。
问题节点

过程比预期的曲折,同时排查到两个节点有问题,包括一开始压根没怀疑的节点:stgw(公司级统一接入)。

STGWL5缓存更新问题

在新增或更新 STGW 路由至 L5(旧公司级域名服务)后,出现了以下具体问题:

bug原因

L5 作为名字服务,采用的是 C/S 架构。问题在于客户端(client)缓存出现异常,导致新增或更新操作后,客户端缓存未能及时刷新。

解决办法

  • 通过业务网关进行管理:由于业务服务(如缩扩容、迁移等)经常变动,而网关相对稳定,因此,将业务服务配置在一个稳定的网关之后是最佳解决方案。


教训

  • 基于指标的告警固然重要,基于日志的告警也不能少(敏感度更高);

  • 正是由于这个问题,,催生了 STGW 后建设业务网关的想法;

3.3 可用性:发布自检

背景

就像吞噬细胞一样,虽然消灭了外部的病毒和细菌,但里面却成了垃圾场。各种各样的兼容、组包成了服务稳定性的隐患。

方案

如何在配套工具没有跟上的情况下,保证服务稳定?工具缺位,人工来补。

我以发布为例,分享下人也是可以作为程序执行器的。

把一次发布作为考察对象,按照一套固定的思考/行动步骤,来最大程度降低发布问题。

  • step 1: review 发布变更准备完整的代码 diff,供二次检查;

    • repeated:枚举变更点(变更点包括:配置、数据库表结构、接口、依赖服务)变更内容;
      • 当前变更的依赖项(依赖的其他变更项,比如配置、数据库变更等);
  • step 2:确定发布步骤根据变更及变更的依赖项确定发布次序。

  • step 3:确定更新策略手动分批发布:微小修改(包括配置变更)

  • step 4:发布过程亲眼看到第一个 pod 重建;

效果

依靠规范发布流程和小心谨慎,未出现一次因发布导致不可用。

性能优化是一个持续不断的课题,因为需求会变化、功能不断增加。

4.1 性能:改造 TSW/NGW

背景

一次排查接口调用报错,意外发现让我震惊的事实:后台 RPC 接口报错的响应在 50ms 内就返回了,为啥前端却200多 ms 才收到!

问题分析

为了使性能评估结果具有实际意义,我们需要一份能够完全镜像真实环境的性能报告。
模拟轻负载状况下(对应正式环境的 NGW/TSW 负载冗余),仅仅比较平均耗时一项。
import { sleep, check } from "pts";import HTTP from "pts/HTTP";
export const options = {};
export default function main() { let response;
response = HTTP.get("HTTPs://xx.com/apisix/"); check("status equals 200", () => response.statusCode.toString() === "200");}
import { sleep, check } from "pts";import HTTP from "pts/HTTP";
export const options = {};
export default function main() { let response;
response = HTTP.get("HTTPs://xx.com/tsw/"); check("status equals 200", () => response.statusCode.toString() === "200");}
APISIX 相对 TSW/NGW 仅平均耗时就提升近 10 倍
TSW 和现有测试流程、工具紧密结合,所以改造过程分两步:
  • 使用 APISIX 平稳替换 NGW 和 TSW 的功能;
  1. APISIX 无缝承接 NGW/TSW 的路由/灰度/染色功能 ;
  2. 单核 QPS 从 2K 提升至 2W,显著降低了 CPU 和内存的资源消耗;
  3. 根据最近 7 天的 STGW 监控数据,请求成功率从 99.985% 提升至 99.997%;(整体平均耗时略有下降,但不具备可比较性,因为后端负载有不重叠部分)。

4.2 性能:支持 WebSocket

背景

WS 在时延上表现十分优秀(降~95%)。如果能从 msf 切到 WS 通道,会带来性能显著提升。

实现方案

着重展开下 WS 方案中的三个关键点。实现细节、针对游戏场景的优化(比如初始下行量大)等计划另开文章来写。

协议选择

WebSocket 本质上是一个传输层协议,在实际应用中还需处理心跳、重连、降级等机制,因此我们需要一个基于 WebSocket 的应用层协议。这与我们不直接使用 TCP 协议进行通信,而是选择基于 HTTP 或私有 RPC 协议通信的原因相似。

通过对比开源及团队内私有协议,选择了socketio。原因主要有:

  • socketio 已经在公司内其他业务的生产环境中经受了百万级消息每秒的考验;

SDK (封装协议交互)是一个容易忽视的成本。SDK 需要支持三种运行环境:

所以 SDK 需要具备扩展机制,能衔接运行环境的差异 API。(私有协议的 SDK 难扩展)

低成本接入

如何让现有的 tRPC server(一问一答式),在不改造的情况下,也能享用实时通信的便利?低成本接入主要解决这个问题。

  1. WS server 只做“接线员”角色:把 client 和 server 的 socket 连起来,就算完事了;

  2. WS server 做“邮局”的角色:业务 server 不用管 client 的存在,只要告诉 WS server 消息发给谁就可以了,WS server 保证最大可能送达;

业务 server 无需改造,即可具备实时下行能力
业务 server 需要具备链接管理能力,各自保证消息可靠送达等
WS server 功能复杂,是整个系统消息吞吐的瓶颈
这里借鉴了 SSO 的实现,采用第二个方案,使业务服务器可以以最低成本接入。
消息可靠送达

如何保证消息一定被 client 收到?其实无法 100%保证这点,只能承诺尽最大可能送达。

其中最容易被想到策略:消息确认,也是 tcp 协议使用的。

在选择方案 2 实现 WS server 后,其实还面临这些的情景:

  • 业务 server 指定向某个用户推消息,但是用户不在线(没有活跃 socket)怎么办?

WS server 同时采用三个策略提高消息送达的可能性:

  • 消息确认:client 接收每个消息需要回复 ack 命令字,否则进入补发机制;

成果

  1. 适配三端(H5/QQ 小程序/cocos)的 SDK;

世界子频道接入后,游戏地图更新更流畅。HTTP 切 WS 后,高频轮询从用户侧下放到 WS server 执行,减少网络数据交换,减少低端机发热。

4.3 效率:文档沉淀

背景

企微检索了下,仅几个高频错误码解决办法(131,12,4001等)就解释了几十次:
把常见的问题和 step by step 教程整理成文档。通过对这些文档进行向量化处理,可以借助大模型做成问答机器人,提供更快的问题解答和错误诊断。
有了文档,除了节约自己的时间,还能让周围的小伙伴更快解决问题。就像代码模块化,文档化后的经验,才是能产生复利的资产

4.3 效率:工具建设

背景

  • 发布过程,比如检查配置、灰度比例设置、配置更新等都需要手动进行。

误区

工具建设很容易陷入:追求一步到位、“完美”,进而过度设计。

例如,在业务网关改造初期,我考虑引入 Terraform 以实现全自动化操作,包括:

粗略估算后的建设成本打醒了我:一开始的目标不是效率提升吗?这和我几年前把 jQuery + Handlebars 替换为更 fancy 的 Angular(性能反而略微下降)没有本质区别。

业务中追求的是实用,白猫黑猫,抓到老鼠就是好猫。切记拼命优化的指标在具体业务场景根本不关心。具体到工具建设,只要开发使用体验好,节省了重复劳动,就是好工具。

方案

在当前的开发流程中,CI、机器人和 Git 已经被广泛应用,开发团队对它们非常熟悉。。熟悉就是好用,有办法不引入新的工具完成自动化,减少重复工作吗?

  • 新网关也接入企微机器人设置染色/转发,和 tsw 一样的方式;

测试中设置转发(切环境)是十分高频的操作,机器人大大提高了效率。
  • 重要配置(白名单、oidb 命令字等),使用 git 管理,采用代码一样的 review 进行变更;
  • 配合 ci,配置变更->审批->生效,完全自动化。

  • cli 负责代码生成:以命令行的形式,自动生成符合网关约定的调用 SDK、接口出入参数类型、Mock 规则等;


效果

引入企微频道机器人后,设置染色的时间从之前的平均 3 分钟缩短到 10秒,而且不再依赖于 PC 浏览器。

白名单/oidb的变更->审批->生效,从原来的平均 2h,缩短到 20min。

大多数棘手 bug 都有一个特点:本地无法复现、测试环境无法复现、正式环境偶现!

5.1背景

  1. pskey invalid 比例上升,略微下降后再上升;
服务整体平均耗时,类似于网页的首次可交互时间,是衡量应用可用性的黄金标准。只要平均耗时增加,就是“发烧了”,需要立即根据其他指标(cpu/memory/disk…)、日志找病根。

5.2问题分析

应用日志上报的错误信息——如“pksey 无效或“tRPC 调用超时——在正常情况下也会偶尔出现,但这次它们的频率异常增高。问题在于,这些错误信息太常见了,无法直接指向问题的根源。那么,我们应该如何进一步探索呢?
正当我们感到进退两难时,容器的文件日志为我们提供了新的线索:北极星是服务发现和治理中心,现已开源 https://polarismesh.cn/
依靠对名字服务粗浅的理解:naming server 负责解析其他服务的名字到ip/port,唯独自己不能有名字,需要硬编码 ip。
猜测:这些 ip 是硬编码的 naming server ip,报错日志显示在对不同 server 进行链接重试。

猜想、验证

polaris 版本有变动,而新版本修改了 server ip —— 这是首先想到的最可能原因。

版本确实升级了(0.3.x -> 0.4.x),经过 diff 两个版本相关源码后,发现 server ip 没有任何更改。


否认了 server ip 变更的猜想后,必须调整 Debug 思路:

  1. 继续向上排查 server ip 的调用代码;

  2. 寻求北极星助手帮助;

寻求协助


两个版本之间的变动十分多。为了更快解决问题,决定立即寻求相关开发团队的帮助:

可能并不是应用代码存在问题,也稍微放心了点。


但是,运行一段时间后,重建的pod 再次出现了上面的报错。放下的心再次悬起来:立即登录 pod,对报错的 ip telnet 测试,网络连通没问题,所以还是应用代码的问题!


非常手段

时间紧迫,无奈只能走钢丝:对线上环境开启实时调试。


太久没这样搞过,一边隔离 pod,一边手忙脚乱查自定义调试端口的写法(生产环境对可访问端口有严格限制):

(…略掉大量无借鉴意义的试验细节)


最终在 memory 的快照中发现了端倪:


按 retained size 倒序后,出现了 PolarisGRPCClient。


展开 PolarisGRPCClient 后发现,每个 client 还都一个 pool:

既然有 pool,client 被设计为复用,但却有这么多 client,每个还有独立的 pool,显然有问题:要么该销毁的时候没销毁,要么缺失了缓存机制。


瞬间惊醒:缓存!


18 个月前写下这个函数的时候,特意留下提醒:


之前一直把目标聚焦在北极星,问题压根不在这,而是使用北极星的库:trpc-rpc-client。


查看 trpc-rpc-client 最新版的源码,果然 createObjectProxy 没了缓存。


5.3解决思路

5.4修后感

  • 我喜欢听法医笔记,99% 依靠摄像头就能破案,但传统刑侦技能依然不能丢,为了可能的 1%。

  • 希望线上调试永远不会成为必须的选项,如果 bug 真的落到监控死角,不要忘了这一救命办法:node –inspect=0.0.0.0:80。

  • 用了一周才走完这 “10 分钟的 bug 修复”,期间思考各个现象、指标背后的关联信息、翻看库代码。如果下次,我希望有监控能帮助我直击要害,而不是绕了这么远:

5.5成果

  1. 实现应用内链接缓存和复用,建链+编解码平均在 5ms 内;

  2. 完善业务指标的监控:关键页面 PV/UV、关键接口耗时;

  3. 加强分集群部署的监控:核心系统指标、服务指标的横向对比;


在流量增长、功能扩展与性能优化的交织下,把一个协议转换发展为业务网关。每一步的发展都不是事先规划的,而且和最初的设想完全不同。


当时同时存在其他可用的替代方案:JSAPI(客户端方案)、HTTPSSO(后台方案),为什么最后落到 Node(前端)来做呢?我觉得一句话总结,是开发选择了 Node


Node只是三个选项中的一个,最后前端、游戏、其他业务的开发(比如腾讯文档)、包括后台,选择了 Node。通过上面的过程,我归纳了 4 个原因:


1. 使用体验

每个开发会用脚投票,不好用就会选择其他替代方案。我熟悉前端最习惯的调用方式:

同时为了让后台的服务不改动也能被尽可能多的方式调用**(APP、小程序、H5、管理端),我做了大量工作,这也是不少后台希望走 Node调用的原因。

2. 稳定第一


Node在测试环境、正式环境的稳定性都被认可。相对于其他调用方法,Node测试环境的稳定赢得了开发的心。并且,Node在正式环境的可用性也达到了 4个 9。


3. 及时响应、敏捷高效


毕竟我就坐在旁边,前端小伙伴吼一声就可以了。一个最近的例子,海外版开始也是计划先走 JSAPI,但是一个 cookie 的修改可能就得排期,通过 Node5分钟,需求响应及时、高效。


4. 持续优化的性能


ngw/tsw -> apisix,编解码、连接等,性能一直在变好,目前可能还不是性能最佳的,但也不会成为瓶颈,是已有替代方案中体验和性能综合最好的。


当然还有十分重要的,频道放量和业务潜力,为网关发展提供根本动力:

不需要胸怀大志,把一件件小事做好,顺势而为。


最后引用一位大佬的话:希望每个看完的小伙伴,忘掉,再重新总结出属于自己的东西。

END

如果您关注前端+AI 相关领域可以扫码加群交流

360 队, Leader 注和加