近期,短视频平台上“AI绘画”的概念爆火,ChatGPT这一词条也刷爆了科技圈,而这些概念同属于一个范畴——AIGC。2022年12月,Science杂志发布的2022年度科学十大突破中,AIGC当选。
那么,被称之为是AI下一代风口的AIGC究竟是什么?
AIGC的概念
AIGC全称为AI-Generated Content,即利用人工智能技能来主动生产内容。详细可依据生成对立网络GAN、生成分散模型和大型预练习模型等人工智能技能,经过已有数据寻觅规律,并经过适当的泛化才能生成相关内容的技能。
AIGC现已成为继PGC(Professional Generated Content,专业生产内容)和UGC(User Generated Content,用户生产内容)之后新型的内容创造方法。
AIGC是继PGC和UGC后又一内容创造方法
图片来历:A16Z,中金公司
其实AIGC的概念并非今年才呈现,在此前,类似于微软小冰等人工智能作诗、写作、创造歌曲的产品就属于AIGC的范畴。但2022年以来,AIGC又会集迸发,国内外的科技巨子公司和投资公司纷纷入局,其原因可能在于以下几点:
- 文本-图画生成模型Stable Diffusion的正式开源,包含程序和练习好的模型。这给了后继创业者一些高起点的时机,有利于更广泛的C端用户遍及。
- 深度学习算力、互联网数据规划扩张以及生成分散模型和多模态预练习模型等技能的快速开展,使人工智能技能也随之迅速开展。从开始的文字生成逐步开展为多模态和跨模态的内容生成。
- 现在各类交际和流媒体平台的遍及,也驱动着内容生产方法的演化。
- 外部环境因素影响。在经济低迷时期,科技职业会挑选相应收敛开支,并将重点放在像是人工智能商业化这类更务实的地方。
AIGC的开展历程
事实上,运用计算机生成内容的主意自上个世纪五十年代就现已呈现,早期的尝试侧重于经过让计算机生成相片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的实在感。结合人工智能的演进改革,AIGC的开展能够大致分为以下三个阶段:
早期萌发阶段(1950s-1990s) ,受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦希勒(Lejaren Hiller)和伦纳德艾萨克森(Leonard Isaacson)经过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创造的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫韦岑鲍姆(Joseph Weizenbaum)和肯尼斯科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其经过关键字扫描和重组来完成交互式任务。80年代中期,IBM依据隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。
世界上第一个机器人“伊莉莎(Eliza)”
沉积堆集阶段(1990s-2010s) ,AIGC从实验性向实用性逐步转变。深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和练习数据规划等都取得了重大突破,遭到算法瓶颈的约束,效果有待提升。2007 年,纽约大学人工智能研究员罗斯古德温(Ross Goodwin)安装的人工智能系统经过对公路游览中的所见所闻进行记录和感知,撰写出世界上第一部彻底由人工智能创造的小说《1 The Road》。2012年,微软公开展现了一个全主动同声传译系统,经过深度神经网络(DNN)能够主动将英文演讲者的内容经过语音识别、言语翻译、语音组成等技能生成中文语音。
世界上第一部彻底由人工智能创造的小说《1 The Road》
快速开展阶段(2010s-至今) ,深度学习模型不断迭代,AIGC取得突破性开展。尤其在2022年,算法取得井喷式开展,底层技能的突破也使得AIGC商业落地成为可能。下面列举了一些迄今为止具有代表性的算法模型,其间首要会集在AI绘画范畴:
- 2014年6月,生成式对立网络(Generative Adversarial Network,GAN)被提出。
- 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预练习模型。
- 2022年,分散模型Diffusion Model逐步替代GAN。
上述三个算法是当时AIGC的技能中心,下述算法模型大部分都是以此为基础。
- 2018年12月,NVIDIA推出StyIeGAN,能够主动生成高分辨率图片。现在已晋级到第四代模型。
- 2019年7月,DeepMind推出DVD-GAN,能够生成接连视频。
- 2021年1月,OpenAI 推出DALL-E,是首个引起公众广泛关注的文本生成图画的模型之一。
- 2022年2月,开源AI绘画东西Disco Diffusion发布。
- 2022年3月,Meta推出Make-A-Scene这一AI图画生成东西。
- 2022年4月,OpenAI 推出了DALL-E-2,在图画分辨率、实在感和新功用上进行了晋级。
- 2022年4月,AI绘画东西MidJourney发布。
- 2022年5月,Google推出Imagen,同样是文本生成图画的模型。
- 2022年6月,Google推出parti,与Imagen功用相同,但在模型算法、模型参数和图画效果等方面做了晋级。
- 2022年7月,开源AI绘画东西Stable Diffusion发布。
- 2022年9月,Meta推出Make-A-Video,能够从文字生成视频。
- 2022年10月,Google提出Imagen video,同样是文字生成视频的模型。
- 2022年11月,Stable Diffusion 2.0发布,在模型算法、图画质量和内容过滤等方面做了晋级。
- 2022年11月,openAI推出 AI 谈天机器人chatGPT。
关于上述算法模型的详细原理和分析,能够期待咱们的下一篇文章哦~
AIGC的运用场景
AIGC在面向不同对象和不同场景时,具有强壮的自适应创造才能,因而被运用在了多种场景。详细包含:
【图画生成】
该范畴现在开展势头最猛,且落地产品较多。依据运用场景,可分为图画修改东西和端到端图画生成。图画修改包含图画特点修改(如去水印、风格迁移、图画修正等)和图画内容修改(如修改面部特征、换脸等)。端到端图画生成包含依据图画生成(如依据草图生成完整图画,依据特定特点生成图画等)和多模态转换(如依据文字生成图画等)。
典型的产品或算法模型包含EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心一格等。
【视频生成】
视频生成与图画生成在原理上有必定相似性,可分为视频修改(如画质修正、视频特效、视频换脸等)、视频主动编排和端到端视频生成(如文字生成视频等)。
典型的产品或算法模型包含Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video等。
【文本生成】
依据NLP技能的文本生成能够算是AIGC中开展最早的一部分技能,功用也较为多样。依据运用场景,可分为非交互式文本生成和交互式文本生成。非交互式文本生成包含内容续写、摘要/标题生成、文本风格迁移、整段文本生成、图画生成文字描述等功用。交互式文本生成包含谈天机器人、文本交互游戏等功用。
典型的产品或算法模型包含JasperAI、Copy.ai、彩云小梦、AI dungeon、ChatGPT等。
【音频生成】
音频生成中的部分技能现已较为成熟,被运用于多种C端产品中。音频生成可分为TTS(Text-to-speech)场景和乐曲生成两类。其间TTS包含语音客服、有声读物制造、智能配音等功用。乐曲生成包含依据最初旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
典型的产品或算法模型包含DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。
【游戏生成】
游戏生成首要包含游戏元素生成和游戏战略生成,其间游戏元素生成包含游戏场景、游戏剧情、NPC人物等元素的生成。游戏战略生成首要指对战战略,一般依据深度强化学习的技能。
典型的产品或算法模型包含rct AI、超参数、腾讯AI Lab等。
【代码生成】
代码生成首要包含代码辅助的功用,包含代码补全、主动注释、依据上下文生成代码、依据注释生成代码等功用。
典型的产品或算法模型包含Github Copilot、Replit、CodeGeeX、Mintlify等。
【3D生成】
与图画生成和视频生成相比,现在3D内容生成还处于较为初级阶段。现有的3D生成基本为依据图画或文本生成3D模型。
典型的产品或算法模型包含Magic3D、DreamFusion、AVAR等。
当时AIGC market map
图片来历:Leonis Capital
IGC图画生成实例
AIGC图画生成能带来许多有趣乃至实用的图画,比如以主动驾驶为例,corner case一直是令感知工程师头疼的问题,缺少corner case场景的数据集练习出来的算法,往往无法很好地应对corner case场景。
可是重建或挖掘corner case场景数据又是一件很困难的工作,不过现在经过AIGC的方法,咱们能够经过算法生成corner case场景的图画,如下图所示,展现的就是算法生成的一系列白色大卡车侧翻的图画,虽然生成的图画实在度还有进步空间,可是也给咱们打开了新的一扇大门,大规划的生成用于AI算法练习的数据集。
整数智能也将在后续的AIGC系列共享中,给大家共享如何在数据标示、模型练习等范畴充沛运用这些才能。
输入文本:一辆白色大卡车侧翻在高速路中心题
输入文本:三辆白色大卡车侧翻在高速路中心题
输入文本:十辆白色大卡车侧翻在高速路中心
参考文献
1. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
2. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual modelsfromnatural language supervision [C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.
3. Yang L, Zhang Z, Song Y, et al. Diffusion models: A comprehensive survey of methods and applications[J]. arXiv preprint arXiv:2209.00796, 2022.
4. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.
5. Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv: 2205. 11487, 2022.
6. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
7. 中国信通院《AIGC白皮书》
8. 量子位《AIGC:AI生成内容产业展望报告》
9. 甲子光年《AIGC爆火的背面,钱都被谁赚走了》
10. Leonis Capital《Generative AI: State of the Market, Trends and Startup Opportunities》