GitHub 一周热点汇总第17期(2024/03/31-04/06) ,这一周又快变成AI热点项目汇总了,这里我还剔除了上周就已上榜的openDevin,一起看看都有哪些热门项目吧。
#1 valkey
- 项目名称:valkey – Redis 替品
- GitHub 链接:github.com/valkey-io/v…
- 上周 Star 数:6700+
Valkey 是一个高性能数据结构服务器,主要服务于键/值工作负载。它支持广泛的本机结构和可扩展的插件系统,用于添加新的数据结构和访问模式。
Valkey 是在Redis宣布修改开源协议后,由 Linux Foundation 发布的一个强大的 Redis 开源替代方案。Valkey 的目标是继续开发 Redis 版本 7.2.4,并确保其在开源的 BSD协议许可下可用,令开发人员和行业利益相关者感到宽慰。更令人兴奋的是,Valkey 的诞生得到了一系列行业科技巨头的支持,如亚马逊网络服务、谷歌云、甲骨文、爱立信和Snap Inc.,他们承诺为项目的可持续性和成功做出贡献。
在最近的调查中,DB_Engines将 Redis列为全球第六大使用最广泛的数据库。
Valkey开发团队计划继续现有的 Redis 路线图,并计划对集群系统的迁移、可扩展性和稳定性进行改进。多线程性能改进、触发器、新命令和矢量搜索支持也在计划书当中。Valkey目前可以在 Linux、macOS、OpenBSD、NetBSD 和 FreeBSD 平台上运行。
下面是它的GitHub star历史,可以看出大家对于寻找一个可靠的Redis替代充满了期待。
#2 MoneyPrinterTurbo
- 项目名称:MoneyPrinterTurbo – 一键生成视频
- GitHub 链接:github.com/harry0703/M…
- 上周 Star 数:4500+
如果你一周有看本专栏,那应该之前我们介绍过一个项目MoneyPrinter,这一次又来了一个国人开发的升级版:MoneyPrinterTurbo,文生视频依旧受人关注。
通过本项目,你只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
另外MoneyPrinterTurbo提供比较好的API访问支持。
项目的实现原理和之前moneyprint是一样的:
- 使用LLM来写视频脚本,这里增加了国产的大模型,比如KIMI
- 使用pexels的API来搜索相关的视频
- 用edge_tts 来做语音生成
- 使用moviepy来剪切和增加字幕
目前项目提供的功能特性包括:
- 完整的 MVC架构,代码 结构清晰,易于维护,支持 API 和 Web界面支持视频文案 AI自动生成,也可以自定义文案
- 支持多种 高清视频 尺寸
- 竖屏 9:16,1080×1920
- 横屏 16:9,1920×1080
- 支持 批量视频生成,可以一次生成多个视频,然后选择一个最满意的
- 支持 视频片段时长设置,方便调节素材切换频率
- 支持 中文 和 英文 视频文案
- 支持 多种语音 合成
- 支持 字幕生成,可以调整 字体、位置、颜色、大小,同时支持字幕描边设置
- 支持 背景音乐,随机或者指定音乐文件,可设置背景音乐音量
- 视频素材来源 高清,而且 无版权
- 支持 OpenAI、moonshot、Azure、gpt4free、one-api、通义千问、Google Gemini、Ollama 等多种模型接入
#3 VoiceCraft
- 项目名称:VoiceCraft – TTS
- GitHub 链接:github.com/jasonppy/Vo…
- 上周 Star 数:4100 +
VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开发的开源神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,并通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,实现了在现有音频序列内的高效生成。
功能特性:
语音编辑:VoiceCraft能够在不需要针对性训练的情况下,对现有的语音录音进行编辑,如插入、删除或替换其中的词语,而编辑后的语音听起来自然,与原录音难以区分。
文本到语音转换:该模型能够仅根据文本和简短的声音样本,生成与目标声音相似的语音,无需在训练过程中接触过目标声音。
高质量语音合成:VoiceCraft在合成语音时,能够保持语音的自然度和清晰度,使得合成语音在听觉上与真实人声相近。
多样化数据适应性:模型在多种口音、说话风格、录音条件以及背景噪音和音乐的挑战性数据集上进行了评估,显示出良好的适应性和一致的性能。
VoiceCraft的性能已经超过了XTTS,这为AI音频处理领域带来了新的突破。它是基于令牌填充的神经编解码器语言模型,可实现领先的语音编辑和零样本文本转语音性能。对于未见过的声音,VoiceCraft只需几秒钟的语音样本就能克隆该声音。此外,VoiceCraft还在野外数据上实现了最先进的语音编辑和零样本文本转语音性能,包括有声书、互联网视频和播客等在线数据。
#4 mojo
- 项目名称:mojo – AI编程语言
- GitHub 链接:github.com/modularml/m…
- 上周 Star 数:2300+
Mojo 是一种新的编程语言,在3月29日才由Modular Inc. 宣布开源。
Mojo 是一种专为编写人工智能软件设计的编程语言,去年 8 月份正式发布,迄今为止已经积累了超过 17.5 万名开发者和 5 万个组织。Mojo通过将 Python 语法和生态系统与系统编程和元编程功能相结合,弥合了研究和生产之间的差距。 Mojo 还很年轻,但随着时间的推移,它的设计目标是成为 Python 的超集。
在之前公布的数据对比中,mojo比python快了35000倍。
在 10 月,Mojo 推出了支持 Mac 平台的版本,Mojo + Apple Silicon 是强强联合,强上加强。根据开发团队提供的测试 —— 使用 matmul.mojo 运行一个矩阵乘法示例。在 Apple MacBook Pro M2 Max 上,与纯 Python 实现的版本相比,Mojo 的速度大约比 Python 快 90,000 倍。
Mojo的开源是Modular对于其AI版图的一次布局,在AI时代,尽管各大公司都在热衷于开发大模型,但也有人将目光投向了编程语言的工具层面,而mojo就是他们的一次重要尝试,在其发布后,目前github的star已经快速上升到了19K star,可以看出开发者对其的热情之高。
#5 llm-answer-engine
- 项目名称: llm-answer-engine – AI 问答搜索引擎
- GitHub 链接:github.com/developersd…
- 上周 Star 数:2100+
本项目旨在根据用户查询高效地返回源、答案、图像、视频和后续问题,是对自然语言处理和搜索技术感兴趣的开发人员的理想起点。本项目包含了构建复杂搜索引擎所需的的代码和指令,该引擎利用Groq、Mistral AI 的 Mixtral、Langchain.JS、Brave Search、Serper API和OpenAI的功能。
以下是本项目使用到的详细技术栈:
- Next.js:用于构建服务器端渲染和静态 Web 应用程序的 React 框架。
- Tailwind CSS:应用程序优先的 CSS 框架,用于快速构建自定义用户界面。
- Vercel AI SDK:Vercel AI SDK 是一个用于构建人工智能驱动的流文本和聊天 UI 的库。
- Groq & Mixtral:处理和理解用户查询的技术。
- Langchain.JS:一个专注于文本操作的 JavaScript 库,例如文本分割和嵌入。
- Brave Search:一个注重隐私的搜索引擎,用于采购相关内容和图像。
- Serper API:用于根据用户的查询获取相关的视频和图像结果。
- OpenAI Embeddings:用于创建文本块的矢量表示。
- Cheerio:用于 HTML 解析,允许从网页中提取内容。
- Ollama(可选) :用于流式推理和嵌入。
本项目目前还在发展中,项目也规划了很多内容在roadmap里。比如添加对基于用户查询的动态和有条件渲染的 UI 组件的支持,提供深色模式等。