我报名参与金石计划1期应战——瓜分10万奖池,这是我的第X篇文章,点击查看活动概况
日报合辑 | 电子月刊 | 大众号下载材料 | @韩信子
东西&结构
『Diffuse The Rest』你画它补,智能 AI 辅佐作画
huggingface.co/spaces/hugg…
根据 Stable Diffusion 的图画主动补全 Demo,随意涂鸦或上传图片,给出完善方向的提示,程序会主动替你『补画』。浅试一下,送颗苹果给你~
『Notesnook』完全开源可替代 Evernote 的端到端加密笔记
github.com/streetwrite…
notesnook.com/
Notesnook 是一个免费和开源的笔记运用程序,专心于用户隐私和易用性。Notesnook 的方针是为用户供给安全和牢靠的笔记服务。
『Brynet』多线程的异步网络库
github.com/IronsDu/bry…
brynet 是一个多线程的异步网络库,能够运行在Linux和Windows环境下。 只是需求C++ 11编译器,且没有其他任何第三方依赖。
『Marqo』人性化张量查找结构
github.com/marqo-ai/ma…
marqo.pages.dev/
Marqo 是一个开源的张量查找结构,与你的运用程序、网站和作业流程无缝集成。
张量查找能够在许多场景下运用:查找和推荐,多模态查找(图画到图画、文本到图画、图画到文本),聊天机器人和问答体系,文本和图画分类。
『imodels』可解释机器学习包,用于简洁、透明和精确的猜测建模
github.com/csinva/imod…
csinva.io/imodels/
现代机器学习模型越来越复杂,往往使它们难以解释。imodels 东西库为拟合和运用最先进的可解释模型供给了一个简略的接口,这些模型都与 scikit-learn 兼容。
这些模型一般能够用更简略的模型(如规矩列表)取代黑盒模型(如随机森林),一起进步可解释性和计算效率,所有这些都不会牺牲猜测的精确性吗,只需导入一个分类器或回归器,并运用拟合和猜测办法,与规范 scikit-learn 模型一样。
博文&分享
『CS 181: Machine Learning』哈佛机器学习(2022课程)
harvard-ml-courses.github.io/cs181-web/
www.youtube.com/channel/UC0…
哈佛大学 CS 181 内容覆盖机器学习、概率推理和不确定环境下的决策。经过本课程,你能够学习到许多常见办法的数学根底,以及运用机器学习来应对真实数据的应战。
详细的课程内容主题包括:监督学习、调集办法和提高、神经网络、支持向量机、核办法、聚类和无监督学习、最大似然、图形模型、隐马尔科夫模型、推理办法、强化学习。
『Notes for prompt engineering』提示工程笔记
github.com/sw-yx/promp…
针对现在流行的 prompt 工程做的一份资源整合笔记,内容覆盖参阅示例、prompt工程经历、东西、社区资源、开源代码集等。
数据&资源
『Awesome Data-Centric AI』数据中心AI相关资源大列表
github.com/ydataai/awe…
『Awesome Singing Voice Synthesis and Singing Voice Conversion』语音组成、文字转语音(TTS)、歌唱声响组成(SVS)、声响转化(VC)、歌唱声响转化(SVC)等相关论文项目列表
github.com/guan-yuan/A…
研讨&论文
大众号后台回复关键字 日报,免费获取整理好的论文合辑。
科研发展
- 2022.07.13 『常识蒸馏』 ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech
- 2022.04.27 『多方针学习』 LibMTL: A Python Library for Multi-Task Learning
- 2022.06.11 『音乐生成』 Multi-instrument Music Synthesis with Spectrogram Diffusion
⚡ 论文:ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech
论文时刻:13 Jul 2022
范畴任务:Denoising, Knowledge Distillation, 降噪,常识蒸馏
论文地址:arxiv.org/abs/2207.06…
代码完成:github.com/Rongjiehuan…
论文作者:Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren
论文简介:Through the preliminary study on diffusion model parameterization, we find that previous gradient-based TTS models require hundreds or thousands of iterations to guarantee high sample quality, which poses a challenge for accelerating sampling./经过对分散模型参数化的开始研讨,咱们发现曾经根据梯度的TTS模型需求成百上千次的迭代才干确保高的采样质量,这对加快采样提出了应战。
论文摘要:扩大的分散概率模型(DDPMs)最近在许多生成任务中取得了抢先的性能。然而,固有的迭代采样进程成本阻碍了它们在文本到语音布置中的运用。经过对分散模型参数化的开始研讨,咱们发现曾经根据梯度的TTS模型需求成百上千次的迭代才干确保高的采样质量,这对加快采样提出了应战。在这项作业中,咱们提出了ProDiff,关于用于高质量文本到语音的渐进式快速分散模型。与以往估计数据密度梯度的作业不同,ProDiff经过直接猜测干净的数据对去噪模型进行参数化,以防止加快采样时明显的质量下降。为了解决分散迭代次数削减的模型收敛应战,ProDiff经过常识提炼削减方针站点的数据差异。详细来说,去噪模型运用来自N步DDIM教师的生成的mel-spectrogram作为练习方针,并将该行为提炼成一个具有N/2步的新模型。因此,它能够使TTS模型做出尖锐的猜测,并进一步将采样时刻削减几个数量级。咱们的评价标明,ProDiff只需求2次迭代就能组成高保真的旋律谱系,而它的采样质量和多样性与运用数百个步骤的最先进的模型比较具有竞争力。ProDiff在单个NVIDIA 2080Ti GPU上完成了比实时快24倍的采样速度,使分散模型首次实际适用于文本到语音组成布置。咱们广泛的消融研讨标明,ProDiff中的每个规划都是有用的,而且咱们进一步标明,ProDiff能够很容易地扩展到多扬声器的设置。音频样本可在 ProDiff.github.io/ 获取。
⚡ 论文:LibMTL: A Python Library for Multi-Task Learning
论文时刻:27 Mar 2022
范畴任务:Multi-Task Learning, 多方针学习
论文地址:arxiv.org/abs/2203.14…
代码完成:github.com/median-rese…
论文作者:Baijiong Lin, Yu Zhang
论文简介:This paper presents LibMTL, an open-source Python library built on PyTorch, which provides a unified, comprehensive, reproducible, and extensible implementation framework for Multi-Task Learning (MTL)./本文介绍了LibMTL,一个建立在PyTorch上的开源Python库,它为多任务学习(MTL)供给了一个一致、全面、可重现和可扩展的完成结构。
论文摘要:本文介绍了LibMTL,一个建立在PyTorch上的开源Python库,它为多任务学习(MTL)供给了一个一致、全面、可重现和可扩展的完成结构。LibMTL考虑了MTL的不同设置和办法,它支持大量最先进的MTL办法,包括12种丢失加权战略,7种架构,以及84种不同架构和丢失加权办法的组合。此外,LibMTL的模块化规划使其易于运用并具有良好的可扩展性,因此用户能够在LibMTL的支持下方便快捷地开发新的MTL办法,与现有的MTL办法进行公平的比较,或将MTL算法运用于实际国际的运用。LibMTL的源代码和详细文档可分别在 github.com/median-rese… 和 libmtl.readthedocs.io 获取。
⚡ 论文:Multi-instrument Music Synthesis with Spectrogram Diffusion
论文时刻:11 Jun 2022
范畴任务:Music Generation,音乐生成
论文地址:arxiv.org/abs/2206.05…
代码完成:github.com/magenta/mus…
论文作者:Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh Gardner, Ethan Manilow, Jesse Engel
论文简介:An ideal music synthesizer should be both interactive and expressive, generating high-fidelity audio in realtime for arbitrary combinations of instruments and notes./抱负的音乐组成器应该是互动性和表现力兼备的,为恣意的乐器和音符组合实时生成高保真音频。
论文摘要:一个抱负的音乐组成器应该既是互动的,又是有表现力的,能够为恣意的乐器和音符组合实时生成高保真的音频。最近的神经组成器在特定范畴的模型和原始波形模型之间进行了权衡,前者只供给对特定乐器的详细控制,后者能够对任何音乐进行练习,但控制力极弱,生成速度慢。在这项作业中,咱们专心于神经组成器的中间地带,它能够从MIDI序列中实时生成具有恣意乐器组合的音频。这使咱们能够用一个单一的模型对广泛的转录数据集进行练习,这反过来又供给了对各种乐器的组成和乐器的音符级控制。咱们运用一个简略的两阶段进程。用编码器-解码器转化MIDI到频谱图,然后用生成对抗网络(GAN)频谱图转化器转化频谱图。咱们比较了将解码器作为自回归模型和去噪分散概率模型(DDPM)进行练习,发现DDPM办法在质量上以及在音频重建和Fr’echet间隔指标上都更有优势。考虑到这种办法的互动性和通用性,咱们发现这是朝着乐器和音符的恣意组合的互动和表现力的神经组成迈出的有希望的第一步。
咱们是 ShowMeAI,致力于传达AI优质内容,分享行业解决方案,用常识加快每一次技能生长!
◉ 点击 日报合辑,在大众号内订阅论题 #ShowMeAI资讯日报,可接收每日最新推送。
◉ 点击 电子月刊,快速阅读月度合辑。