大模型日报（8 月 10~11 日学术篇）_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词：大模型、AI 学习社群、技术优化、推荐技术、新评测集

2. 总结：本文涵盖了大模型相关的多方面内容，包括搭建 AI 学习社群，RISC-V 向量指令模拟优化、推理引擎加速、搜索推荐技术探索、新评测集等，还介绍了一些新的工具和框架。

3. 主要内容：

– AI 学习社群：

– 希望搭建 AI 学习社群，共建更好社区生态，可订阅飞书接收《大模型日报》。

– 技术优化：

– 优化 NEMU 模拟器提升 RISC-V 向量指令模拟速度。

– MInference 1.0 实现单卡 Million-context 推理 10 倍加速。

– 京东广告对稀疏大模型训练与推理的 GPU 优化实践。

– 搜索推荐技术：

– 阿里巴巴专家分享搜索推荐技术进展及大模型应用。

– 新工具和框架：

– Flash Attention 注意力机制及 CUDA 实现。

– FPX-NIC 用于硬件编码的 FPGA 加速框架。

– 新评测集 LiveBench 和 CoverBench。

– GPTMe 基于命令行的 LLM 助手。

– Merlinn 开源的 AI 驱动工程师。

思维导图：

文章地址：https://mp.weixin.qq.com/s/uKXedzggFDIPeR0phal3KQ

文章来源：mp.weixin.qq.com

作者：LLM??SPACE

发布时间：2024/8/11 14:41

语言：中文

总字数：2066字

预计阅读时间：9分钟

评分：89分

标签：大模型,AI技术,硬件加速,推荐系统,深度学习

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

以向量化的方式进行 RISC-V 向量指令模拟

本文详细介绍了如何通过优化 NEMU 模拟器来提升 RISC-V 向量指令的模拟速度。研究团队通过消除地址计算的冗余、采用位运算实现掩码操作以及避免 unbounded 循环，成功地提高了自动向量化的效率，从而利用 X86 的 AVX 指令加速 RVV 模拟。优化后的 NEMU 在 SPECint 2006 的 h264 基准测试中达到了 131 MIPS 的速度，远超 QEMU 的 7 MIPS。这一优化方法不仅适用于 RISC-V Vector 指令集，还可以扩展到其他向量指令集如 ARM SVE。通过实验，团队证明了在未开启自动向量化的情况下性能提升至 4 倍，开启后更是达到了 6 倍的提升，主要得益于减少的权限检查、地址翻译以及分支预测错误的减少。

https://zhuanlan.zhihu.com/p/713732958?utm_psn=1805606654663860225

单卡可Million-context推理TTFT 10倍加速 – MInference 1.0

MInference 1.0 是一款高效的推理引擎，通过先进的内存管理和并行计算技术，实现了在单一 GPU 上进行 Million-context 级别的推理处理。它的核心优势在于能够显著降低 Time to First Token (TTFT)，从而实现推理速度的 10 倍加速。技术细节上，MInference 1.0 采用了动态批处理和流水线处理技术，优化了内存访问模式，减少了冗余计算，提高了缓存命中率。这些技术的应用使得 MInference 1.0 能够在保持较低资源消耗的同时，提供快速且稳定的推理服务。此外，该引擎还兼容多种深度学习模型架构，如 Transformer 和 RNN，增强了其在自然语言处理、机器翻译等领域的应用性。

https://zhuanlan.zhihu.com/p/707815545?utm_psn=1805605787671863296

从大数据到大模型：搜索推荐技术的前沿探索

文章由阿里巴巴集团的技术专家施兴撰写，旨在分享搜索推荐技术的最新进展，特别是大模型在推荐系统中的应用。文章首先介绍了推荐系统的基础架构，包括召回、粗排和精排等关键环节，以及如何利用大数据平台进行高效的数据处理和模型训练。接着详细阐述了阿里云机器学习平台 PAI 的技术特点，如资源管理、大数据和 AI 服务、特征平台 FeatureStore 等。在推荐算法方面，文章提到了百炼模型服务平台和 EasyRec 算法库，强调了 Embedding 特征在提升推荐质量中的作用。此外，文章还探讨了模型优化技术，如多级缓存、特征自动淘汰、WorkQueue 模式等，以解决模型复杂性带来的训练和推理效率问题。最后，文章展望了大语言模型在搜索推荐领域的新应用，如电商导购、内容推荐等，并提出了 PAI-RAG 项目，旨在通过模块化设计提升 RAG 链路的适用性和效率。

https://zhuanlan.zhihu.com/p/713026917?utm_psn=1805606498140815360

flash attention完全解析和CUDA零基础实现

Flash Attention 是一种提高深度学习模型在处理长序列数据时效率的注意力机制。它通过优化矩阵乘法的计算过程，减少内存占用和计算量。具体而言，Flash Attention 利用 Strassen 算法降低了矩阵乘法的计算复杂度，并通过 CUDA 并行计算技术实现了高效的 GPU 加速。这种机制特别适合处理自然语言处理等领域的大规模数据，能够在保持模型性能的同时，显著提升计算速度和降低内存需求。实验结果表明，相比传统注意力机制，Flash Attention 在处理长序列时，显著提高了计算效率，尤其在资源受限的环境下尤为突出。

https://zhuanlan.zhihu.com/p/658947627?utm_psn=1805607416940867586

FPX-NIC：用于硬件编码的FPGA加速NIC框架

FPX-NIC 是一个基于 FPGA 的硬件编码加速框架，专为网络接口卡设计。它通过将编码逻辑集成到 NIC 中，实现数据处理的近似时实处理，大幅降低了延迟。该框架支持多种编码算法，如 H.264、H.265 等，并且能够根据应用场景动态调整编码参数，以优化性能。FPX-NIC 的模块化设计使得它能够轻松扩展新的编码算法，并且支持热插拔，提高了系统的灵活性和可维护性。此外，通过 Zero-Copy 技术，FPX-NIC 避免了不必要的数据复制，进一步提升了数据处理效率。

https://zhuanlan.zhihu.com/p/713707898?utm_psn=1805609150048251906

京东广告稀疏大模型训练与推理 GPU 优化实践

京东广告团队针对稀疏大模型的 GPU 训练与推理优化实践，通过内存管理优化、异步计算通信、流水线并行等技术手段，显著提升了模型处理效率。具体包括：采用内存池技术减少内存碎片，优化内存访问模式以提高带宽利用率；实现计算与通信的重叠，通过异步 IO 和 CUDA 流减少 GPU 空闲时间；以及设计流水线并行机制，实现数据加载、计算和参数更新的同步异步处理。这些措施不仅降低了 GPU 资源消耗，还缩短了模型训练和推理时间，提高了系统整体性能。

https://zhuanlan.zhihu.com/p/713692019?utm_psn=1805609351852990464

新评测集 LiveBench & CoverBench

新评测集 LiveBench 和 CoverBench 为大型语言模型提供了全新的评价体系。LiveBench 通过实时监控模型性能，确保评估结果的时效性和实用性。CoverBench 则以其广泛的任务集合，全面考察模型的泛化能力。

https://zhuanlan.zhihu.com/p/713593419?utm_psn=180560924821172633

GPTMe

GPTMe 是一个基于命令行的 LLM 助手，可以直接在终端中与之交互。它具有执行代码（shell 和 Python）、读写文件、浏览网页等功能，是一个本地版的 ChatGPT “代码解释器”。它支持多种 LLM 提供商，并且易于扩展，拥有全面的测试覆盖。

https://github.com/ErikBjare/gptme

merlinn

Merlinn 是一个开源的 AI 驱动工程师。它可以自动参与生产事故和警报，并实时提供有用和相关的见解和根本原因分析。

https://github.com/merlinn-co/merlinn

— END —

分类