Posted in

Google 开源的快速键值存储库 | 开源日报 No.330_AI阅读总结 — 包阅AI

包阅导读总结

1. 开源、键值存储、AI 笔记、模型微调、KAN 网络

2. 本文介绍了多个开源项目,包括 Google 的快速键值存储库 leveldb、本地运行模型的 AI 笔记应用 reor、用于微调大型模型的工具包 xtuner、构建语音和多模态对话代理的框架 pipecat 以及 KAN 相关资源收集 awesome-kan。

3.

– Google/leveldb

– 快速键值存储库

– 有序映射,基本操作包括 Put、Get、Delete

– 数据自动压缩,外部活动接口可自定义

– 非 SQL 数据库,单进程访问,内置客户端/服务器需额外封装

– reorproject/reor

– 本地运行模型的 AI 笔记应用

– 自组织,存储本地,支持多种技术和功能

– 连接 OpenAI 兼容 API,自动连接相关笔记,支持语义搜索

– InternLM/xtuner

– 微调大型模型的工具包

– 支持多种模型和 GPU,自动调度高性能运算符

– 兼容 DeepSpeed,支持多种训练算法,数据管道设计良好

– pipecat-ai/pipecat

– 构建语音和多模态对话代理的开源框架

– 支持多种应用,可本地运行或迁移云端,提供多种服务和传输选项及代码示例

– mintisan/awesome-kan

– KAN 相关资源收集

– 包括库、项目、教程、论文等

– 介绍 KAN 优势及应用,有望替代 MLP

思维导图:

文章地址:https://mp.weixin.qq.com/s/J2hyZ_r37lEQXjrT55GH5g

文章来源:mp.weixin.qq.com

作者:帅比柒

发布时间:2024/8/15 16:09

语言:中文

总字数:1306字

预计阅读时间:6分钟

评分:89分

标签:开源项目,键值存储,AI笔记应用,大型模型微调,语音对话代理


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

google/leveldbhttps://github.com/google/leveldb

Stars: 35.9k License: BSD-3-Clause

leveldb 是 Google 编写的快速键值存储库,提供了一个有序映射关系,将字符串键映射到字符串值。leveldb 项目具有特点和核心优势:

  • 基本操作包括 Put(key, value)、Get(key) 和 Delete(key)。
  • 数据会自动使用 Snappy 压缩库进行压缩,并支持 Zstd 压缩。
  • 外部活动(文件系统操作等)虚拟接口传递,因此用户可以自定义操作系统交互。该项目不是 SQL 数据库,没有关系型数据模型、SQL 查询支持或索引支持。每次只能有一个进程(可能是多线程)访问特定数据库。该库内置的客户端/服务器支持,需要额外封装服务端。

reorproject/reorhttps://github.com/reorproject/reor

Stars: 6.7k License: AGPL-3.0

reor 是一个在本地运行模型的 AI 笔记应用程序。该项目旨在提供自组织的人工智能笔记应用,具有以下特点和优势:

  • 一切都存储在本地,并且可以使用类似 Obsidian 的 markdown 编辑器编辑笔记
  • 使用 Llama.cpp、Transformers.js 和 LanceDB 等技术实现了 LLMs 和嵌入式模型的本地运行
  • 支持连接到 OpenAI 兼容 API(如 Oobabooga)
  • 将每个写下的笔记分块并嵌入内部向量数据库中,通过向量相似性自动连接相关笔记,利用 LLM 进行问答回筛选,并支持语义搜索。

InternLM/xtunerhttps://github.com/InternLM/xtuner

Stars: 3.5k License: Apache-2.0

picture

xtuner 是一个高效、灵活且功能齐全的工具包,用于微调大型模型(InternLM、Llama、Baichuan、Qwen、ChatGLM)。

  • 支持 LLM、VLM 在几乎所有 GPU 上的预训练/微调,能够在单个 8GB GPU 上微调 7B LLM,并支持超过 70B 模型的多节点微调。
  • 自动调度高性能运算符,如 FlashAttention 和 Triton 内核,以增加训练吞吐量。
  • 兼容 DeepSpeed,轻松利用各种 ZeRO 优化技术。
  • 支持各种 LLMs(InternLM、Mixtral-8x7B、Llama 2、ChatGLM、Qwen、Baichuan 等)和 VLMs(LLaVA),性能出色。
  • 设计良好的数据管道,适用于任何格式的数据集,包括但不限于开源和自定义格式。
  • 支持各种训练算法(QLoRA、LoRA、全参数微调),允许用户选择最适合其需求的解决方案。
  • 输出模型可以无缝集成到部署和服务器工具包(LMDeploy)以及大规模评估工具包(OpenCompass、VLMEvalKit)中。

pipecat-ai/pipecathttps://github.com/pipecat-ai/pipecat

Stars: 2.7k License: BSD-2-Clause

picture

pipecat 是一个用于构建语音和多模态对话代理的开源框架。

  • 支持构建个人教练、会议助手、儿童故事玩具、客户支持机器人等应用。
  • 可在本地运行,也可迁移到云端;支持电话号码、图像输出、视频输入等功能。
  • 提供各种第三方 AI 服务和传输选项,如 anthropic、azure、google 等,以及 local、websocket、daily 等传输方式。
  • 提供代码示例,包括基础代码片段和完整应用程序,帮助开发者快速上手。

mintisan/awesome-kanhttps://github.com/mintisan/awesome-kan

Stars: 2.0k License: NOASSERTION

picture

awesome-kan 是一个全面的 KAN(Kolmogorov-Arnold Network)相关资源收集,包括库、项目、教程、论文等,旨在为 Kolmogorov-Arnold Network 领域的研究人员和开发者提供帮助。

  • 收集了与 KAN 相关的论文、库、项目、讨论和教程。
  • 提供了多种 KAN 的实现,如 pykan、efficient-kan 等,以及基于 KAN 的项目,如 KAN-GPT 和 Simple-KAN-4-Time-Series。
  • KAN 通过在边缘(“权重”)上使用可学习的激活函数而不是在节点(“神经元”)上使用固定的激活函数,在准确性和可解释性方面优于 MLP(Multi-Layer Perceptrons)。
  • KAN 有望成为 MLP 的替代方案,在数据拟合和 PDE 求解方面,即使是更小的 KAN 也可以实现与更大的 MLP 相媲美甚至更好的准确性。
  • KAN 具有更快的神经尺度规律,并且可以直观地可视化和与用户交互,有助于科学家(重新)发现数学和物理定律。