Google 开源的快速键值存储库 | 开源日报 No.330_AI阅读总结

包阅导读总结

1. 开源、键值存储、AI 笔记、模型微调、KAN 网络

2. 本文介绍了多个开源项目，包括 Google 的快速键值存储库 leveldb、本地运行模型的 AI 笔记应用 reor、用于微调大型模型的工具包 xtuner、构建语音和多模态对话代理的框架 pipecat 以及 KAN 相关资源收集 awesome-kan。

– Google/leveldb

– 快速键值存储库

– 有序映射，基本操作包括 Put、Get、Delete

– 数据自动压缩，外部活动接口可自定义

– 非 SQL 数据库，单进程访问，内置客户端/服务器需额外封装

– reorproject/reor

– 本地运行模型的 AI 笔记应用

– 自组织，存储本地，支持多种技术和功能

– 连接 OpenAI 兼容 API，自动连接相关笔记，支持语义搜索

– InternLM/xtuner

– 微调大型模型的工具包

– 支持多种模型和 GPU，自动调度高性能运算符

– 兼容 DeepSpeed，支持多种训练算法，数据管道设计良好

– pipecat-ai/pipecat

– 构建语音和多模态对话代理的开源框架

– 支持多种应用，可本地运行或迁移云端，提供多种服务和传输选项及代码示例

– mintisan/awesome-kan

– KAN 相关资源收集

– 包括库、项目、教程、论文等

– 介绍 KAN 优势及应用，有望替代 MLP

思维导图：

文章地址：https://mp.weixin.qq.com/s/J2hyZ_r37lEQXjrT55GH5g

文章来源：mp.weixin.qq.com

作者：帅比柒

发布时间：2024/8/15 16:09

语言：中文

总字数：1306字

预计阅读时间：6分钟

评分：89分

标签：开源项目,键值存储,AI笔记应用,大型模型微调,语音对话代理

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

google/leveldbhttps://github.com/google/leveldb

Stars: 35.9k License: BSD-3-Clause

leveldb 是 Google 编写的快速键值存储库，提供了一个有序映射关系，将字符串键映射到字符串值。leveldb 项目具有特点和核心优势：

基本操作包括 Put(key, value)、Get(key) 和 Delete(key)。
数据会自动使用 Snappy 压缩库进行压缩，并支持 Zstd 压缩。
外部活动（文件系统操作等）虚拟接口传递，因此用户可以自定义操作系统交互。该项目不是 SQL 数据库，没有关系型数据模型、SQL 查询支持或索引支持。每次只能有一个进程（可能是多线程）访问特定数据库。该库内置的客户端/服务器支持，需要额外封装服务端。

reorproject/reorhttps://github.com/reorproject/reor

Stars: 6.7k License: AGPL-3.0

reor 是一个在本地运行模型的 AI 笔记应用程序。该项目旨在提供自组织的人工智能笔记应用，具有以下特点和优势：

一切都存储在本地，并且可以使用类似 Obsidian 的 markdown 编辑器编辑笔记
使用 Llama.cpp、Transformers.js 和 LanceDB 等技术实现了 LLMs 和嵌入式模型的本地运行
支持连接到 OpenAI 兼容 API（如 Oobabooga）
将每个写下的笔记分块并嵌入内部向量数据库中，通过向量相似性自动连接相关笔记，利用 LLM 进行问答回筛选，并支持语义搜索。

InternLM/xtunerhttps://github.com/InternLM/xtuner

Stars: 3.5k License: Apache-2.0

xtuner 是一个高效、灵活且功能齐全的工具包，用于微调大型模型（InternLM、Llama、Baichuan、Qwen、ChatGLM）。

支持 LLM、VLM 在几乎所有 GPU 上的预训练/微调，能够在单个 8GB GPU 上微调 7B LLM，并支持超过 70B 模型的多节点微调。
自动调度高性能运算符，如 FlashAttention 和 Triton 内核，以增加训练吞吐量。
兼容 DeepSpeed，轻松利用各种 ZeRO 优化技术。
支持各种 LLMs（InternLM、Mixtral-8x7B、Llama 2、ChatGLM、Qwen、Baichuan 等）和 VLMs（LLaVA），性能出色。
设计良好的数据管道，适用于任何格式的数据集，包括但不限于开源和自定义格式。
支持各种训练算法（QLoRA、LoRA、全参数微调），允许用户选择最适合其需求的解决方案。
输出模型可以无缝集成到部署和服务器工具包（LMDeploy）以及大规模评估工具包（OpenCompass、VLMEvalKit）中。

pipecat-ai/pipecathttps://github.com/pipecat-ai/pipecat

Stars: 2.7k License: BSD-2-Clause

pipecat 是一个用于构建语音和多模态对话代理的开源框架。

支持构建个人教练、会议助手、儿童故事玩具、客户支持机器人等应用。
可在本地运行，也可迁移到云端；支持电话号码、图像输出、视频输入等功能。
提供各种第三方 AI 服务和传输选项，如 anthropic、azure、google 等，以及 local、websocket、daily 等传输方式。
提供代码示例，包括基础代码片段和完整应用程序，帮助开发者快速上手。

mintisan/awesome-kanhttps://github.com/mintisan/awesome-kan

Stars: 2.0k License: NOASSERTION

awesome-kan 是一个全面的 KAN（Kolmogorov-Arnold Network）相关资源收集，包括库、项目、教程、论文等，旨在为 Kolmogorov-Arnold Network 领域的研究人员和开发者提供帮助。

收集了与 KAN 相关的论文、库、项目、讨论和教程。
提供了多种 KAN 的实现，如 pykan、efficient-kan 等，以及基于 KAN 的项目，如 KAN-GPT 和 Simple-KAN-4-Time-Series。
KAN 通过在边缘（“权重”）上使用可学习的激活函数而不是在节点（“神经元”）上使用固定的激活函数，在准确性和可解释性方面优于 MLP（Multi-Layer Perceptrons）。
KAN 有望成为 MLP 的替代方案，在数据拟合和 PDE 求解方面，即使是更小的 KAN 也可以实现与更大的 MLP 相媲美甚至更好的准确性。
KAN 具有更快的神经尺度规律，并且可以直观地可视化和与用户交互，有助于科学家（重新）发现数学和物理定律。

分类

Google 开源的快速键值存储库 | 开源日报 No.330_AI阅读总结 — 包阅AI