Posted in

大模型日报(8 月 10~11 日 学术篇)_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:大模型、AI 学习社群、技术优化、推荐技术、新评测集

2. 总结:本文涵盖了大模型相关的多方面内容,包括搭建 AI 学习社群,RISC-V 向量指令模拟优化、推理引擎加速、搜索推荐技术探索、新评测集等,还介绍了一些新的工具和框架。

3. 主要内容:

– AI 学习社群:

– 希望搭建 AI 学习社群,共建更好社区生态,可订阅飞书接收《大模型日报》。

– 技术优化:

– 优化 NEMU 模拟器提升 RISC-V 向量指令模拟速度。

– MInference 1.0 实现单卡 Million-context 推理 10 倍加速。

– 京东广告对稀疏大模型训练与推理的 GPU 优化实践。

– 搜索推荐技术:

– 阿里巴巴专家分享搜索推荐技术进展及大模型应用。

– 新工具和框架:

– Flash Attention 注意力机制及 CUDA 实现。

– FPX-NIC 用于硬件编码的 FPGA 加速框架。

– 新评测集 LiveBench 和 CoverBench。

– GPTMe 基于命令行的 LLM 助手。

– Merlinn 开源的 AI 驱动工程师。

思维导图:

文章地址:https://mp.weixin.qq.com/s/uKXedzggFDIPeR0phal3KQ

文章来源:mp.weixin.qq.com

作者:LLM??SPACE

发布时间:2024/8/11 14:41

语言:中文

总字数:2066字

预计阅读时间:9分钟

评分:89分

标签:大模型,AI技术,硬件加速,推荐系统,深度学习


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

学习

以向量化的方式进行 RISC-V 向量指令模拟

本文详细介绍了如何通过优化 NEMU 模拟器来提升 RISC-V 向量指令的模拟速度。研究团队通过消除地址计算的冗余、采用位运算实现掩码操作以及避免 unbounded 循环,成功地提高了自动向量化的效率,从而利用 X86 的 AVX 指令加速 RVV 模拟。优化后的 NEMU 在 SPECint 2006 的 h264 基准测试中达到了 131 MIPS 的速度,远超 QEMU 的 7 MIPS。这一优化方法不仅适用于 RISC-V Vector 指令集,还可以扩展到其他向量指令集如 ARM SVE。通过实验,团队证明了在未开启自动向量化的情况下性能提升至 4 倍,开启后更是达到了 6 倍的提升,主要得益于减少的权限检查、地址翻译以及分支预测错误的减少。
https://zhuanlan.zhihu.com/p/713732958?utm_psn=1805606654663860225

单卡可Million-context推理TTFT 10倍加速 – MInference 1.0

MInference 1.0 是一款高效的推理引擎,通过先进的内存管理和并行计算技术,实现了在单一 GPU 上进行 Million-context 级别的推理处理。它的核心优势在于能够显著降低 Time to First Token (TTFT),从而实现推理速度的 10 倍加速。技术细节上,MInference 1.0 采用了动态批处理和流水线处理技术,优化了内存访问模式,减少了冗余计算,提高了缓存命中率。这些技术的应用使得 MInference 1.0 能够在保持较低资源消耗的同时,提供快速且稳定的推理服务。此外,该引擎还兼容多种深度学习模型架构,如 Transformer 和 RNN,增强了其在自然语言处理、机器翻译等领域的应用性。
https://zhuanlan.zhihu.com/p/707815545?utm_psn=1805605787671863296

从大数据到大模型:搜索推荐技术的前沿探索

文章由阿里巴巴集团的技术专家施兴撰写,旨在分享搜索推荐技术的最新进展,特别是大模型在推荐系统中的应用。文章首先介绍了推荐系统的基础架构,包括召回、粗排和精排等关键环节,以及如何利用大数据平台进行高效的数据处理和模型训练。接着详细阐述了阿里云机器学习平台 PAI 的技术特点,如资源管理、大数据和 AI 服务、特征平台 FeatureStore 等。在推荐算法方面,文章提到了百炼模型服务平台和 EasyRec 算法库,强调了 Embedding 特征在提升推荐质量中的作用。此外,文章还探讨了模型优化技术,如多级缓存、特征自动淘汰、WorkQueue 模式等,以解决模型复杂性带来的训练和推理效率问题。最后,文章展望了大语言模型在搜索推荐领域的新应用,如电商导购、内容推荐等,并提出了 PAI-RAG 项目,旨在通过模块化设计提升 RAG 链路的适用性和效率。
https://zhuanlan.zhihu.com/p/713026917?utm_psn=1805606498140815360

flash attention完全解析和CUDA零基础实现

Flash Attention 是一种提高深度学习模型在处理长序列数据时效率的注意力机制。它通过优化矩阵乘法的计算过程,减少内存占用和计算量。具体而言,Flash Attention 利用 Strassen 算法降低了矩阵乘法的计算复杂度,并通过 CUDA 并行计算技术实现了高效的 GPU 加速。这种机制特别适合处理自然语言处理等领域的大规模数据,能够在保持模型性能的同时,显著提升计算速度和降低内存需求。实验结果表明,相比传统注意力机制,Flash Attention 在处理长序列时,显著提高了计算效率,尤其在资源受限的环境下尤为突出。
https://zhuanlan.zhihu.com/p/658947627?utm_psn=1805607416940867586

FPX-NIC:用于硬件编码的FPGA加速NIC框架

FPX-NIC 是一个基于 FPGA 的硬件编码加速框架,专为网络接口卡设计。它通过将编码逻辑集成到 NIC 中,实现数据处理的近似时实处理,大幅降低了延迟。该框架支持多种编码算法,如 H.264、H.265 等,并且能够根据应用场景动态调整编码参数,以优化性能。FPX-NIC 的模块化设计使得它能够轻松扩展新的编码算法,并且支持热插拔,提高了系统的灵活性和可维护性。此外,通过 Zero-Copy 技术,FPX-NIC 避免了不必要的数据复制,进一步提升了数据处理效率。
https://zhuanlan.zhihu.com/p/713707898?utm_psn=1805609150048251906

京东广告稀疏大模型训练与推理 GPU 优化实践

京东广告团队针对稀疏大模型的 GPU 训练与推理优化实践,通过内存管理优化、异步计算通信、流水线并行等技术手段,显著提升了模型处理效率。具体包括:采用内存池技术减少内存碎片,优化内存访问模式以提高带宽利用率;实现计算与通信的重叠,通过异步 IO 和 CUDA 流减少 GPU 空闲时间;以及设计流水线并行机制,实现数据加载、计算和参数更新的同步异步处理。这些措施不仅降低了 GPU 资源消耗,还缩短了模型训练和推理时间,提高了系统整体性能。
https://zhuanlan.zhihu.com/p/713692019?utm_psn=1805609351852990464

新评测集 LiveBench & CoverBench

新评测集 LiveBench 和 CoverBench 为大型语言模型提供了全新的评价体系。LiveBench 通过实时监控模型性能,确保评估结果的时效性和实用性。CoverBench 则以其广泛的任务集合,全面考察模型的泛化能力。
https://zhuanlan.zhihu.com/p/713593419?utm_psn=180560924821172633

GPTMe

GPTMe 是一个基于命令行的 LLM 助手,可以直接在终端中与之交互。它具有执行代码(shell 和 Python)、读写文件、浏览网页等功能,是一个本地版的 ChatGPT “代码解释器”。它支持多种 LLM 提供商,并且易于扩展,拥有全面的测试覆盖。
https://github.com/ErikBjare/gptme

merlinn

Merlinn 是一个开源的 AI 驱动工程师。它可以自动参与生产事故和警报,并实时提供有用和相关的见解和根本原因分析。
https://github.com/merlinn-co/merlinn
  1. — END —