Posted in

开源版 Sora:AI 视频生成的高性能实现 | 开源日报 No.291_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:开源项目、视频生成、开发框架、流处理器、插件

2. 总结:本文介绍了五个开源项目,包括高性能的 AI 视频生成模型 Open-Sora、Espressif SoCs 开发框架 esp-idf、流处理器 connect、绕过付费墙插件 bypass-paywalls-chrome-clean 以及语音相关的 sherpa-onnx。

3. 主要内容:

– Open-Sora

– 类似于 OpenAI 的 Sora 的视频生成模型的高性能实现

– 提供完整复制架构解决方案,支持动态分辨率等多种功能

– esp-idf

– Espressif SoCs 的官方开发框架

– 支持多平台,包含示例项目和快速命令参考

– connect

– 高性能和弹性的流处理器

– 支持多种源和接收器,使用内存事务模型保证交付可靠性

– bypass-paywalls-chrome-clean

– Chrome 浏览器插件

– 允许用户阅读付费墙网站文章

– sherpa-onnx

– 语音相关的开源项目

– 支持多种平台和编程语言,提供预构建 APKs 和预训练模型

思维导图:

文章地址:https://mp.weixin.qq.com/s/T_MESEFZ_IP0UEzyY7B0ag

文章来源:mp.weixin.qq.com

作者:帅比柒

发布时间:2024/7/2 21:16

语言:中文

总字数:850字

预计阅读时间:4分钟

评分:88分

标签:开源项目,AI 视频生成,Sora 复制架构,动态分辨率,多模态模型


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

picture

hpcaitech/Open-Sorahttps://github.com/hpcaitech/Open-Sora

Stars: 17.9k License: Apache-2.0

picture

Open-Sora 是一个开源项目,提供了类似于 OpenAI 的 Sora 的视频生成模型的高性能实现。该项目的主要功能和核心优势包括:

  • 提供完整的 Sora 复制架构解决方案,从数据处理到训练和部署全流程支持。
  • 支持动态分辨率,可以直接训练任何视频分辨率,无需缩放。
  • 支持多种模型结构选择,包括 adaLN-zero、交叉注意力以及上下文条件(token concat)等常见多模态模型结构。
  • 支持多种视频压缩方法选择,在训练时可使用原始视频、VQVAE(原生视频模型)或 SD-VAE(图像原生模型)等选项。
  • 支持多种并行训练优化方式,并兼容 Colossal-AI 的 AI 大规模系统优化能力以及与 Ulysses 和 FastSeq 结合的混合序列并行性。

espressif/esp-idfhttps://github.com/espressif/esp-idf

Stars: 12.8k License: Apache-2.0

picture

esp-idf 是 Espressif SoCs 的官方开发框架。该项目提供了 Espressif SoCs 的官方开发框架,支持 Windows、Linux 和 macOS 平台。其主要功能和核心优势包括:

  • 包含示例项目和快速命令参考,便于用户进行开发调试。

redpanda-data/connecthttps://github.com/redpanda-data/connect

Stars: 8.0k License: NOASSERTION

connect 是一个高性能和弹性的流处理器,可以连接各种源和接收器,并在一系列代理模式中执行数据解析、增强、转换和过滤操作。主要功能、关键特性、核心优势:

  • 支持多种源(如 AWS, Azure, GCP 等)和接收器(如 Kafka, Redis 等),具有广泛的兼容性。
  • 使用内存事务模型实现消息处理与确认,保证至少一次交付并提供可靠性。

bpc-clone/bypass-paywalls-chrome-cleanhttps://github.com/bpc-clone/bypass-paywalls-chrome-clean

Stars: 2.0k License: MIT

bypass-paywalls-chrome-clean 是一个 Chrome 浏览器的插件,允许用户阅读实施付费墙的网站上的文章。该项目具有以下主要功能和优势:

此程序解决了用户在浏览受限制内容时遇到的付费问题。

k2-fsa/sherpa-onnxhttps://github.com/k2-fsa/sherpa-onnx

Stars: 2.0k License: Apache-2.0

sherpa-onnx 是使用下一代 Kaldi 和 onnxruntime 实现的语音转文本、文本转语音和说话人识别的开源项目。该项目支持在无需互联网连接的情况下,在嵌入式系统、Android、iOS、树莓派等多种平台上运行,并提供了以下功能和优势:

  • 适用于多种编程语言,包括 C/C++、Python、Kotlin 等
  • 提供预构建的 Android APKs 以及预训练模型链接