包阅导读总结
1. 开源、键值存储、AI 笔记、模型微调、KAN 网络
2. 本文介绍了多个开源项目,包括 Google 的快速键值存储库 leveldb、本地运行模型的 AI 笔记应用 reor、用于微调大型模型的工具包 xtuner、构建语音和多模态对话代理的框架 pipecat 以及 KAN 相关资源收集 awesome-kan。
3.
– Google/leveldb
– 快速键值存储库
– 有序映射,基本操作包括 Put、Get、Delete
– 数据自动压缩,外部活动接口可自定义
– 非 SQL 数据库,单进程访问,内置客户端/服务器需额外封装
– reorproject/reor
– 本地运行模型的 AI 笔记应用
– 自组织,存储本地,支持多种技术和功能
– 连接 OpenAI 兼容 API,自动连接相关笔记,支持语义搜索
– InternLM/xtuner
– 微调大型模型的工具包
– 支持多种模型和 GPU,自动调度高性能运算符
– 兼容 DeepSpeed,支持多种训练算法,数据管道设计良好
– pipecat-ai/pipecat
– 构建语音和多模态对话代理的开源框架
– 支持多种应用,可本地运行或迁移云端,提供多种服务和传输选项及代码示例
– mintisan/awesome-kan
– KAN 相关资源收集
– 包括库、项目、教程、论文等
– 介绍 KAN 优势及应用,有望替代 MLP
思维导图:
文章地址:https://mp.weixin.qq.com/s/J2hyZ_r37lEQXjrT55GH5g
文章来源:mp.weixin.qq.com
作者:帅比柒
发布时间:2024/8/15 16:09
语言:中文
总字数:1306字
预计阅读时间:6分钟
评分:89分
标签:开源项目,键值存储,AI笔记应用,大型模型微调,语音对话代理
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
google/leveldbhttps://github.com/google/leveldb
Stars: 35.9k
License: BSD-3-Clause
leveldb 是 Google 编写的快速键值存储库,提供了一个有序映射关系,将字符串键映射到字符串值。leveldb 项目具有特点和核心优势:
-
基本操作包括 Put(key, value)、Get(key) 和 Delete(key)。 -
数据会自动使用 Snappy 压缩库进行压缩,并支持 Zstd 压缩。 -
外部活动(文件系统操作等)虚拟接口传递,因此用户可以自定义操作系统交互。该项目不是 SQL 数据库,没有关系型数据模型、SQL 查询支持或索引支持。每次只能有一个进程(可能是多线程)访问特定数据库。该库内置的客户端/服务器支持,需要额外封装服务端。
reorproject/reorhttps://github.com/reorproject/reor
Stars: 6.7k
License: AGPL-3.0
reor 是一个在本地运行模型的 AI 笔记应用程序。该项目旨在提供自组织的人工智能笔记应用,具有以下特点和优势:
-
一切都存储在本地,并且可以使用类似 Obsidian 的 markdown 编辑器编辑笔记 -
使用 Llama.cpp、Transformers.js 和 LanceDB 等技术实现了 LLMs 和嵌入式模型的本地运行 -
支持连接到 OpenAI 兼容 API(如 Oobabooga) -
将每个写下的笔记分块并嵌入内部向量数据库中,通过向量相似性自动连接相关笔记,利用 LLM 进行问答回筛选,并支持语义搜索。
InternLM/xtunerhttps://github.com/InternLM/xtuner
Stars: 3.5k
License: Apache-2.0

xtuner 是一个高效、灵活且功能齐全的工具包,用于微调大型模型(InternLM、Llama、Baichuan、Qwen、ChatGLM)。
-
支持 LLM、VLM 在几乎所有 GPU 上的预训练/微调,能够在单个 8GB GPU 上微调 7B LLM,并支持超过 70B 模型的多节点微调。 -
自动调度高性能运算符,如 FlashAttention 和 Triton 内核,以增加训练吞吐量。 -
兼容 DeepSpeed,轻松利用各种 ZeRO 优化技术。 -
支持各种 LLMs(InternLM、Mixtral-8x7B、Llama 2、ChatGLM、Qwen、Baichuan 等)和 VLMs(LLaVA),性能出色。 -
设计良好的数据管道,适用于任何格式的数据集,包括但不限于开源和自定义格式。 -
支持各种训练算法(QLoRA、LoRA、全参数微调),允许用户选择最适合其需求的解决方案。 -
输出模型可以无缝集成到部署和服务器工具包(LMDeploy)以及大规模评估工具包(OpenCompass、VLMEvalKit)中。
pipecat-ai/pipecathttps://github.com/pipecat-ai/pipecat
Stars: 2.7k
License: BSD-2-Clause

pipecat 是一个用于构建语音和多模态对话代理的开源框架。
-
支持构建个人教练、会议助手、儿童故事玩具、客户支持机器人等应用。 -
可在本地运行,也可迁移到云端;支持电话号码、图像输出、视频输入等功能。 -
提供各种第三方 AI 服务和传输选项,如 anthropic、azure、google 等,以及 local、websocket、daily 等传输方式。 -
提供代码示例,包括基础代码片段和完整应用程序,帮助开发者快速上手。
mintisan/awesome-kanhttps://github.com/mintisan/awesome-kan
Stars: 2.0k
License: NOASSERTION

awesome-kan 是一个全面的 KAN(Kolmogorov-Arnold Network)相关资源收集,包括库、项目、教程、论文等,旨在为 Kolmogorov-Arnold Network 领域的研究人员和开发者提供帮助。
-
收集了与 KAN 相关的论文、库、项目、讨论和教程。 -
提供了多种 KAN 的实现,如 pykan、efficient-kan 等,以及基于 KAN 的项目,如 KAN-GPT 和 Simple-KAN-4-Time-Series。 -
KAN 通过在边缘(“权重”)上使用可学习的激活函数而不是在节点(“神经元”)上使用固定的激活函数,在准确性和可解释性方面优于 MLP(Multi-Layer Perceptrons)。 -
KAN 有望成为 MLP 的替代方案,在数据拟合和 PDE 求解方面,即使是更小的 KAN 也可以实现与更大的 MLP 相媲美甚至更好的准确性。 -
KAN 具有更快的神经尺度规律,并且可以直观地可视化和与用户交互,有助于科学家(重新)发现数学和物理定律。