AIGC周报｜30秒定制一个文生图模型；60美元让AI玩转《我的世界》；手机版“文生图”模型：2秒不到出一张图-六虎

AIGC（AI Generated Content）即人工智能生成内容。近期爆火的 AI 谈天机器人 ChatGPT，以及 DallE 2、Stable Diffusion 等文生图模型，都归于 AIGC 的典型事例，它们经过学习现有的、人类创造的内容来快速完结内容创造。

AIGC是“昙花一现”？仍是将引领AI进入新的时代？_「AIGC 周报」_将从【技能前瞻】【企业动态】【方针法规】【专家观点】带你快速跟进 AIGC 国际。

01技能前瞻

60美元，练习一个能玩《我的国际》的AI模型

当时，构建一个能呼应文本指令的AI模型，特别是涉及接连决议方案使命处理时，依然具有必定的应战性。

在一项近期宣告在预印本网站arXiv上的研讨中，来自多伦多大学的研讨团队经过在沙盒游戏《我的国际》中引进一个指令微调视频预练习（VPT）模型——STEVE-1，证明了已在DALLE 2中运用的unCLIP办法对创立遵从指令的顺序决议方案代理同样有用。

值得一提的是，经过运用VPT和MineCLIP等预练习模型，以及文本条件下图画生成的最佳实践办法，STEVE-1的练习本钱仅为60美元，且可以很好地遵从《我的国际》中广泛的敞开式文本和视觉指令。

据介绍，经过低水平操控（如鼠标和键盘）和原始像素输入，STEVE-1在《我的国际》中为敞开式指令跟随设定了新标准，远远超越曾经的基准。

参阅资料：
arxiv.org/abs/2306.00…

用一张图片，30秒定制一个文生图模型

当时，文生图模型可以生成具有高保真度的、与文本对齐的图画。但是，怎么依据用户输入的图画生成具有新颖概念的图画，依然面临着许多应战。

为处理这一问题，大多现有的预练习文生图模型的定制办法都会运用正则化技能来避免过拟合。虽然正则化技能可以缓解定制的应战，并在文本指导下成功地进行内容创造，但它或许会限制模型的才能，使得一些细节信息丢失，生成作用较差。

该研讨提出了一种新颖的无需正则化的定制文生图结构。详细而言，该结构包含一个编码器网络和一种新型采样办法，可以处理过拟合问题而无需运用正则化。经过所提出的结构，研讨团队可以在半分钟内在单个GPU上定制一个大规划的文生图模型，而用户只需供给一张图片。

参阅链接：
arxiv.org/abs/2305.13…

手机版“文生图”模型：2秒不到出一张图

当时，文本到图画的分散模型可以依据自然言语描述创造出令人惊叹的图画，其创造水平甚至或许与专业艺术家和摄影师的作品相媲美。但是，这些模型规划庞大，具有杂乱的网络架构，且要经过数十次去噪迭代，这就使得它们核算本钱高昂、运转速度缓慢。

为了处理这些问题，来自Snap、美国西北大学的研讨团队提出了一种通用办法——SnapFusion，即采用高效的网络架构并改善进程蒸馏，首次完成了在移动设备上以不到2秒的速度运转文本到图画分散模型。

详细而言，研讨团队提出了一种高效的UNet，经过识别原始模型的冗余部分，并经过数据蒸馏来削减图画解码器的核算量；此外，经过探究练习战略和引进来自无分类器指导的正则化，进一步增强了进程蒸馏的作用。

在MS-COCO数据集上的实验数据证明，SnapFusion在8个去噪进程下完成了比Stable Diffusion v1.5在50个进程下更好的FID和CLIP得分。

参阅链接：
arxiv.org/abs/2306.00…

在《我的国际》里，AI“探险家”玩嗨了

近来，由英伟达、加州理工、斯坦福等高校和组织的研讨团队推出的具身代理模型Voyager，在沙盒游戏《我的国际》中经过自主学习闯出了归于自己的一片天地——

在游戏中，Voyager不只学会了发掘、建房屋、收集、打猎这些基本的生存技能，还学会了进行敞开式探究；它在国际各地“游览”，去过不同城市、海洋、金字塔；还可以树立传送门；能与末影龙战斗……

此外，Voyager还能经过自我驱动和探究不断发现新的物品和技能，依据不同的状况为自己装备不同等级的盔甲，以及运用多样化且具有创造性的东西，如运用栅门圈养动物、运用盾牌格挡损伤等。

参阅链接：
arxiv.org/abs/2305.16…

OpenAI提出减轻ChatGPT幻觉的新办法

OpenAI提出了一种减轻ChatGPT等AI大模型幻觉、完成更好对齐的新办法——经过“进程监督”来提高ChatGPT等AI大模型的数学推理才能。

据介绍，“进程监督”经过奖赏每个正确的推理进程，而不只仅是奖赏正确的终究答案（即“结果监督”），在处理数学问题方面到达了最先进水平。

数据显现，进程监督的奖赏模型不只在整体上体现更好，并且跟着考虑每个问题的处理方案数量增加，功用优势也在扩大。这表明进程监督的奖赏模型更加可靠。

除了得到高于结果监督的功用体现外，进程监督或许也有助于处理对齐难题，例如，它直接练习模型发生一个被人类认可的思维链。

目前，OpenAI的研讨人员尚不清楚这些结果能否应用在数学范畴之外，但他们认为，未来探究进程监督在其他范畴中的影响的研讨将至关重要。

参阅链接：
openai.com/research/im…

记忆提取正告：AI学会“摄神取念”了

还记得伏地魔的“摄神取念”吗？如今，AI也学会了这种魔法。

由新加坡国立大学和香港中文大学学者一起打造的Mind-Video，不只能读取人的大脑信号，还能用高清视频进行重现。不论是游览途中的美景，仍是绚烂的海底国际，不论是实际，仍是梦境，只要是你所见所想，AI就能重现。即便是接连改变的场景，Mind-Video也能呈现出高清的、有含义的接连帧。

虽然目前Mind-Video重建的视频与人的思维仍有必定差距，但在一些场景下，它复刻的准确度却出奇地惊人，甚至能复现出与你脑海中高度相似的人脸。

参阅链接：
arxiv.org/abs/2305.11…

GPT-4等AI大模型学会制造东西了

从人类进化的里程碑可以发现，人类进化的要害转折点是人类有才能制造东西来处理呈现的困难。

日前，来自Google Deepmind、普林斯顿大学和斯坦福大学的研讨团队，将“进化”的概念应用在了大型言语模型（LLMs）范畴——

他们提出了一个结构，在这个结构中，LLMs作为东西制造者可以生成自己的、可从头运用的东西来处理新使命。

由于东西制造进程只需求对给定的功用执行一次，因而生成的东西可以在不同的使命实例中重复运用。这种办法为处理杂乱使命开拓了可扩展、本钱高效的处理方案。

参阅链接：
arxiv.org/abs/2305.17…

用GPT-4完成可控文本图画生成

当时，AI模型在图画生成细节方面还有许多瑕疵，且很难运用自然言语指定对象的确切方位、巨细或形状。

来自加州大学伯克利分校和微软研讨院的研讨团队，试图经过编程的办法处理这一问题——运用大型言语模型（LLMs）生成代码的功用完成可控的文本到图画生成。

该研讨提出了一个简略而有用的结构Control-GPT，首要运用GPT-4生成TikZ代码方式的草图，然后将这些草图充任为分散模型的参阅点，使分散模型可以更好地了解空间联系和特殊概念。

这种办法使得prompt工程和草图创立进程不再需求人为干预，并提高了分散模型的可控性。

参阅链接：
arxiv.org/abs/2305.18…

02企业动态

英伟达生成式AI引擎已投入量产

近来，英伟达创始人兼CEO黄仁勋在NVIDIA Computex 2023演讲中宣告，生成式AI引擎NVIDIA DGX GH200现已投入量产。

英伟达官网显现，NVIDIA DGX GH200是将256个NVIDIA Grace Hopper超级芯片彻底连接到单个GPU中的新型AI超级核算机，支撑万亿参数AI大模型练习，可以处理大规划引荐体系、生成式人工智能和图形剖析，并为巨型人工智能模型供给线性可扩展性。

黄仁勋表明，“不需求把数据储存在许多个模块中，DGX GH200更易练习大言语模型、深度学习引荐体系。”

一天10万张图，360公司运用AIGC生成广告资料

近来，360集团副总裁梁志辉表明，公司目前许多广告资料都是根据AIGC才能生成的，已完成一天10万张图的生成才能，正朝着一天100万张图的生成才能努力。

此外，公司内部正在研制AI数字员工产品，包含由大模型才能驱动的AI讲师、AI剖析师和AI设计师等。

摩根大通正寻求雇佣比同行更多的AI员工

Evident数据显现，2月至4月，摩根大通在全球宣扬招聘3651个AI相关职位，几乎是花旗和德意志银行的两倍。经过AI协助高盛集团和ING等公司的Eigen Technologies表明，2023年第一季度银行问询量是去年同期的五倍。

清智人工智能孵化器正式树立

近来，清智人工智能孵化器在清华科技园宣告树立。据了解，孵化器采用深度孵化与资源整合相结合的办法，以场地+基金+专家指导+工业资源的方式为AI范畴草创企业供给助力，力求从源头发现和支撑原创优秀AI项目，一起推进学院科研成果转化，并构建一个良性、完善的创业立异孵化体系。

我国信通院：编制纸鸢敞开人工智能模型许可证，促大模型落地

近来，我国信息通讯研讨院联合工业各方一起编制“纸鸢”敞开人工智能模型许可证，旨在为一起打造具有变革含义的大模型开源项目奠定坚实根底。

我国信通院云大所开源和软件安全部主任郭雪表明，为充分发挥大型模型的通用性优势，促进大型模型技能在工业中真实落地，我国信息通讯研讨院联合工业各方一起编制“纸鸢”敞开人工智能模型许可证，下一步将发布《纸鸢敞开人工智能模型许可证（征求定见稿）》。

全球最大广告公司将运用AI大批量制造广告内容

日前，全球最大广告公司WPP已与芯片制造商英伟达展开合作，将运用生成式人工智能为客户大批量制造广告内容。黄仁勋表明，将一起开发内容引擎，WPP可以运用AI在几分钟内生成曾经需求花费数周时刻制造的广告。

03方针法规

北京：体系构建大模型等通用人工智能技能体系

近来，北京市政府办公厅正式发布《北京市促进通用人工智能立异开展的若干办法》。其间提出，体系构建大模型等通用人工智能（AGI）技能体系。开展大模型立异算法及要害技能研讨，鼓舞开源技能生态制作。构建数据管理渠道相联体系，研制数据清洗、标注、分类、注释及内容审查等算法及东西。构建多模态、多维度的根底模型评测基准及评测办法，制作主动评测敞开服务渠道。支撑研制分布式练习体系、编译器及AI芯片主动化评测体系，推进根底软硬件广泛适配。持续探究通用智能体、具身智能和类脑智能等AGI新路径。

深圳：推进“千行百业＋AI”孵化高度智能化的出产机器人

近来，深圳市人民政府办公厅印发《深圳市加速推进人工智能高质量开展高水平应用行动方案（2023—2024年）》。《方案》提出，推进“千行百业＋AI”。施行AI软件应用示范扶持方案，鼓舞金融、商务、工业、交通等职业企业根据AI技能对现有出产、服务和管理办法进行晋级。推进AI在设备毛病检测和毛病诊断、根据视觉的外表缺陷检测、智能分拣等制造业范畴的应用。加强制造业数据的采集、运用、开发，探究树立企业数据“标注＋练习”闭环机制，储备高质量数据集，孵化高度智能化的出产机器人。加速推进低空智能交融根底设施项目制作，推进低空经济工业立异开展。

教育部等十八部分：探究运用AI等技能补偿优质教育教育资源缺乏

日前，教育部等十八部分联合印发《关于加强新时代中小学科学教育作业的定见》。《定见》要求，要改善校园教育与服务。依照课程方案开齐开足开好科学类课程，修订完善课程标准及教材，一起将教辅书纳入监管体系。强化实验教育，并广泛组织中小学生前往科学教育场所，进行场景式、体验式科学实践活动。为单薄地区、单薄校园援建科学教育场所，供给设备、器件、图书、软件等，并探究运用 AI、虚拟实际等技能手段改善和强化实验教育，补偿优质教育教育资源缺乏的状况。

OECD正考虑修订其AI指导方针

跟着ChatGPT等生成式人工智能的迅猛开展，经济合作与开展组织（OECD）方案从头审视其AI指导方针。2019年5月，OECD出台了首部AI的政府间方针指导方针，确保AI的体系设计契合公正、安全、公平缓值得信赖的国际标准。该指导方针不具备法令约束力。

04专家观点

黄仁勋：AI意味着每个人都可以成为程序员

近来，黄仁勋表明，AI意味着每个人现在都可以成为核算机程序员，由于人们所需求做的便是与核算机对话，他为“数字鸿沟”的终结而喝彩。“编程门槛十分低。咱们已经缩小了数字鸿沟。现在每个人都是程序员——你只需求对核算机说些什么，”他说。“前进的速度，由于它很容易运用，是它增加如此之快的原因。这将触及每一个职业。”

刘慈欣：迟早会有一天AI可以替代科幻作家或其他作家

近来，在2023我国科幻大会“科技驱动科幻工业高质量开展”论坛上，关于“人工智能会给科幻创造带来哪些改变”，今世科幻作家刘慈欣表明，“迟早会有一天，AI可以替代科幻作家或其他作家。”

他表明，人们常说AI没有人的魂灵、人的感触，这不过是一个自我安慰。人自己的魂灵、感触，也是许多神经元细胞连接成杂乱体系后出现出来的。

刘慈欣也补充道，即便有AI的影响，未来科幻作家不会彻底消失，“像现在皮影戏也没消失相同。人们的科幻创造会一向存在，但它不会成为那种一向受关注的、很主流的东西。”

Yoshua Bengio：对毕生作业感到“手足无措”

近来，图灵奖得主、被誉为AI“教父”之一的Yoshua Bengio教授表明，如果他此前就意识到AI的开展速度，他将会把安全置于有用性之上。

Bengio表明，关于他终身的作业，他感到“手足无措”。他的这一说法，是在业界专家说AI或许导致人类灭绝后宣告的。他也加入了对AI监管的呼吁，认为戎行不该该被颁发AI的权力。

他表明，他终身的作业给了他方向和身份感，但如今已经不再清晰。“这关于身处AI职业界部的人来说是具有应战性的，从情感上说。你可以说我感到迷茫。但你有必要继续前进，你有必要参加讨论，鼓舞别人与你一同考虑。”

另外，Bengio提出，一切制作强壮AI产品的公司都需求遭到监管。“政府需求追踪他们在做什么，需求可以审计他们，这仅仅咱们对任何其他部分所做的最起码的工作，比如制造飞机、轿车或药品等。”

Sam Altman等数百名专家：像核战争相同，AI或许灭绝人类

近来，多位图灵奖得主、顶级AI公司CEO、顶尖高校教授，与数百位在各自范畴享有话语权的专家，一起签署了一份公开信，内容简略却有力：下降AI灭绝人类的危险，应该与大流行病、核战争等其他社会规划的危险相同，成为全球范围内的优先事项。

在这份联名公开信的人名列表中，有许多耳熟能详的名字，包含“AI教父”、图灵奖得主Geoffrey Hinton、OpenAI首席执行官Sam Altman、Google DeepMind首席执行官Demis Hassabis等。

在一份相关的新闻稿中，CAIS表明，他们希望借此“设置护栏并树立组织，以便AI危险不会让咱们措手不及”，并将对AI的正告比作“原子弹之父”J.Robert Oppenheimer对原子弹的潜在影响的正告。

李开复：我国大模型公司不该再依靠于别人的开源模型

在2023中关村论坛上，立异工场董事长李开复表明，我国大模型开展，自主立异是必经之路。他指出，要支撑开源，但不能过度依靠开源模型，许多开源模型宣称能到达类似ChatGPT 90%甚至100%的作用，这些模型在基本评测中或许接近ChatGPT，但仅经过API接口微调和对齐，并且仅仅做简略的对话，在长文本生成和推理等使命上受限。潜在应战为：

1）开源模型无法到达与海外大厂自研模型的水准；

2）海外大厂的开源技能有封闭的危险；

3）国内外文明、用户习气、法令法规不同。

李开复认为，我国大模型公司不该再依靠于别人的开源模型，需求尽快树立起自己的IP和技能优势，形成护城河。

赵志耘：大模型技能群正在快速强壮

近来，我国科学技能信息研讨所所长赵志耘在中关村论坛上表明，AI大模型技能在自然言语了解、核算机视觉、智能语音等方向上都取得了标志性的前进，在模型精度、通用化和泛化才能等方面都完成了跨越式才能提高。ChatGPT激发言语大模型爆发式出现，也招引大量研制团队投入到通用视觉、多模态等更多大模型研制方向，仅用五年多时刻，已迅速生长为庞大的大模型技能群，衍生出包括各种参数规划、各种技能架构、各种模态、各种场景的大模型家族。

吴朝晖：人工智能开展要坚持开源协作

近来，科技部副部长吴朝晖表明，我国政府高度重视人工智能的开展，并提出4点建议：

一是坚持开源协作，加强壮形式技能大模型技能持续立异；

二是坚持场景驱动，加强壮模型职业应用，推进产品立异；

三是加强技能向善，以职责的态度来推进大模型的开展；

四是坚持敞开合作，加强壮众性国际交流与合作。

05其他

因过于相信ChatGPT，一律师要赋闲了

跟着AI职业的飞速开展，许多人开始担心ChatGPT等AI大模型会让自己赋闲。对一位纽约律师来说，这个噩梦或许会提早到来，但原因并非你所想。

据《纽约时报》报道，一名叫Steven Schwartz的律师曾向ChatGPT寻求协助，希望在起草一份法令备忘录时得到一些辅佐，结果可想而知，灾难性的工作发生了。

起因是这样的，Schwartz地点的律师事务所代表Roberto Mata申述哥伦比亚航空公司（Avianca），宣称他在飞往纽约市的肯尼迪国际机场的航班上受伤。当该航空公司要求联邦法官驳回这起案子时，Schwartz提交了一份10页的备忘录，论述了为何应该继续进行诉讼。虽然该文件引证了半打以上的法院判定事例，但不幸的是，一切阅览这份备忘录的人都找不到其间引证的任何一项法院判定。为什么？由于ChatGPT假造了一切这些判定事例。

在周四提交的一份宣誓书中，Schwartz写道，他“不知道ChatGPT的内容或许是虚伪的”。他甚至分享了截图，证明他曾询问ChatGPT所引证的事例是否真实存在，ChatGPT的答复是“它们是真实的”。

Schwartz表明，他“十分后悔”运用ChatGPT，“将来绝不会在没有对其真实性进行绝对验证的状况下再次运用”。目前，他是否还有时机起草法令备忘录尚不确定。

AIGC周报｜30秒定制一个文生图模型；60美元让AI玩转《我的世界》；手机版“文生图”模型：2秒不到出一张图

相关文章

GPT4 提问技巧二：提供参考文本

扪心自问，我们在用户旅程的投入有多匮乏？

谷歌版ChatGPT——Bard来了，如何申请试用、体验如何、以及常见问题

爆火的OpenAI-Sora运作原理

作者信息