GPT-4 于 2023 年 3 月 14 日发布。现在 GPT-4 没有免费版本,仅向 ChatGPT Plus 的付费订阅用户及企业和开发者敞开。

如比尔盖茨在 reddit 答复网友提问时答复时说的:「AI is the big one. I don’t think Web3 was that big or that metaverse stuff alone was revolutionary but AI is quite revolutionary」,咱们或许又到了一个历史性的转折点

现在各家企业,包括 Google、微软,以及国内的 BAT 等大厂都在许多投入,一些中小厂也在笔直的运用赛道拔城攻寨,作为一个技能办理者必定会面对这样一个洪流,在洪流之中咱们需求注意什么呢?

假如你所在企业要上线 AIGC 的产品,或许已经上线 AIGC 的产品,以下的五个重要事项需求特别注意。

1 安全

安全是产品的生命线,特别是关于 AIGC 产品来说,没有安全守护,不仅仅是产品玩完,乃至会连累其它产品乃至公司存续。

1.1 内容安全

这儿内容安全的界说是指 AIGC 生成内容影响产品自身存在的领域。

在国内与内容安全相关的场景包括涉政、色情、性感(性感和色情在内容安全中是不一样的)、暴恐、违禁、厌恶、涉价值观等。其间每一项都需求检测,部分项呈现问题乃至会关站和约谈。

在 chatGPT 大火后,网络上有各种和 chatGPT 相关的段子,特别是一些场景下,对输入遣词的调整或屡次测验相同的提示很灵敏,只需稍作改写,就能够以另一种办法答复出来。

据最新发布的 GPT-4 的 OpenAI 工程师们们说,GPT-4 的练习在去年 8 月完结,剩下的时刻都在进行微调提升,以及最重要的去除危险内容生成的作业。由此可见内容安全是一个多么重要且杂乱的事情。

GPT-4 在 RLHF 练习中参加了一个额外的安全奖赏信号,经过练习模型回绝对此类内容的恳求来削减有害的输出。奖赏是由 GPT-4 的零样本分类器供给的,它判别安全边界和安全相关 prompt 的完结办法。为了避免模型回绝有用的恳求,团队从各种来历(例如,标示的出产数据、人类的红队、模型生成的 prompt)搜集多样化的数据集,在答应和不答应的类别上运用安全奖赏信号(有正值或负值)。这是 OpenAI 的工程师在练习 GPT-4 时做的一些极力。

GPT-4 现在是闭源的,模型自身咱们做不了什么。

除了 GPT-4 ,还有许多的 AIGC 的模型,而且更多的人仅仅作为一个运用开发方来完成一些功用。

除了在练习时对模型自身危险内容生成的去除,在技能运用侧,咱们能够考虑如下一些方面:

  1. 接入内容安全审阅渠道,在输入和输出两个层面进行双重过滤。公司大的接自己的,公司内没有的接第三方,依靠审阅渠道的积累,躲避掉涉政、色情等危险极大的状况。
  2. 实名可追溯,类似于工厂里面的批号盯梢,关于用户上传图片、文字或视频、运用 AIGC 出产出来的内容、传达的内容进行盯梢,有体系支撑后台的查询和追溯,在后台中注意对用户灵敏信息的维护,坚持脱敏的逻辑。
  3. 操控传达,操控传达一方面是在功用层面保证传达的内容是在上面安全审阅渠道的前置约束下进行,另一方面在传达进行多级防控,比方播放量到达不同的等级进行不同标准的检测,如播放量到达 10 万,需求从头进入审阅等等。

在互联网职业,内容安全一直面对着应战,各内容渠道不断提升关于内容安全的治理才能,跟着 AIGC 的发展,内容爆炸式的增长,内容安全的应战将会更大。

1.2 虚伪信息

在对 chatGPT 深度体会后,往往会生成一种「不苟言笑的胡言乱语」的感觉,乃至它会编造一些事实或许不存在的东西出来答复。关于模棱两可的问题,chatGPT 通常会猜想用户的意图,而非让用户澄清问题。

举个比方,我在 chatGPT-3.5 中问: 「有没有什么现成的库能够检测图片清晰度,对原图和 avif 图进行清晰度检测」,它答复了三个库能够,Sharp、ImageJS和 Pica

我接着问:「 Pica 的什么办法能够检测」,它告诉我 quality 办法能够,并给出了详细的示例,从代码上来看,像那么回事,而且代码前面的引进,输入的格局转化都没有问题,有问题的仅仅没有 quality 办法而已。

又或许你随意取一个书名,问他是谁写的,比方我的问题是: 「《不想开车的夜晚,我在听歌》这本书是谁写的」,它的答复是:「 “不想开车的夜晚,我在听歌” 这本书的作者是中国作家韩寒。这本书是一本散文集,收录了韩寒的一些散文著作,其间包括《像少年啦奔驰》、《三重门》、《我所了解的日子》等等。这本书出书于2002年,是韩寒的第一本散文集。韩寒是中国当代著名的作家、音乐人、导演和出资人,他的著作包括小说、散文、音乐和电影等多个领域,深受年青读者和网民的喜欢和追捧。」

除了 chatGPT 以外,图片或视频生成领域有更多的虚伪信息,如欺诈团队运用 DeepFake,经过截取马斯克在 TED 采访的视频,并为其配音,为的便是推出 BitVex 比特币欺诈渠道。欺诈分子还假造了方舟出资(Ark Invest)CEO 凯瑟琳伍德、以太坊联合创始人查尔斯霍斯金森等多位币圈名人引荐BitVex的视频。另外,2021 年初光是靠 DeepFake 技能换脸马斯克喊出「给我一个币,我给你两个」的骗局在一周内就到达 24.3 万美元,欺诈总额高达 3000 万美元(约人民币2亿)。

欺诈团伙以及不法份子运用 AIGC 歹意运用,乃至滥用,引发新型的欺诈、色情、诋毁、假冒身份等违法犯罪行为。 AIGC 让其功率更高,辨别难度更大。这样或许会引发人们关于个人身份的盗用,冒用,以及在网络上,或在元世界中数字身份安全的忧虑。

以上是在 GPT-4 呈现之前,在 GPT-4 出来后,状况有所改动,如前面个问题:「《不想开车的夜晚,我在听歌》这本书是谁写的」,GPT-4 的答复是:「很抱歉,我无法找到与《不想开车的夜晚,我在听歌》这本书相关的作者信息。这本书或许不存在,或许没有满足的闻名度。假如您能供给更多信息,我会极力协助您找到相关内容。」

技能在前进,会越来越好,可是咱们仍然需求结合实名制、内容安全检测等手法,咱们只能尽量削减虚伪信息在渠道的发生和传达。

1.3 模型安全

现在 AIGC 内容生成关于咱们来说是一个黑盒子,咱们无法彻底预知其进程和成果。咱们所能做的是操控模型的参数和模型的数据输入,这儿或许会导致安全问题。

算法的公正性和透明度。AI 体系的决议计划往往是根据其算法的成果,可是,假如这些算法存在成见或不公平的要素,将会对用户的权力和利益构成损害。因而,AIGC 需求保证 AI 算法的公正性和透明度,避免对用户构成不公平的影响。

  • 对模型的攻击:经过某种办法向模型中注入歹意样本、有毒数据或有误导性的数据,来破坏模型;或许以某种办法篡改或操作模型的练习数据,以到达改动模型输出的意图。
  • 模型后门:在模型的练习中,攻击者经过修改模型的练习数据和权重信息使模型学习到了躲藏的规则,以到达放置后门的意图(我也不知道怎样完成)。举个比方,假定有个开源的项目不想让人商用,所以选用了 GPL 的协议,可是怎么判别有人商用了呢,所以在项目生成的模型中躲藏一些规则,比方某些特殊的输入能显现和特定的成果,以举证。比方「左耳朵耗子」在 Twitter 上分享的「百度的“文心一格”AI生成图片:“一只爱国的猫”,看来不但政治不正确,而且能够估测后边用的图片练习集的来历也不是自主可控的」,那只猫身上的国旗是美丽国的。不过现在你无法生成了,因为在输入层面做了约束,现在输入只会显现「请您替换输入后试试~」,这也便是咱们前面说的在输入层面做一些操控。

除了模型自身的安全问题,关于模型衍生的个人隐私维护,数据安全和标准,乃至后边或许会呈现的模型病毒等等都需求继续关注起来。

2 容量

AIGC 产品在面对许多用户运用时,或许会面对以下容量问题:

  1. 存储容量: AIGC 产品生成的内容包括了大型文本、视频、图画等多媒体数据。假如用户数目众多,这或许需求许多的存储空间。假定用户生成的这些内容都是放到公有云上,跟着用户的增加,这些内容将会成为一个巨大的本钱,因而咱们在项目规划之初就考虑存储容量的问题,给每个用户的容量,总的容量,以及存储的时长,因为本钱是跟着时刻而变化的。
  2. 处理容量: AIGC 产品处理许多数据,包括数据的搜集、整合、剖析和后期制造处理等多个环节。因而,AIGC 需求具备高质量的核算设备和核算才能来支持项目,将运用的各个环节结合起来,处理更多最终输出成果。假如核算才能缺乏,则或许会给用户带来等待时刻过长的运用体会,增加流失率。
  3. 带宽容量: AIGC 产品生成内容的访问恳求峰值会在高峰期不断攀升,这需求具备良好的带宽容量来完成。假如网络峰值超越供应时,将影响用户体会和产品稳定性。 因而,就需求整合具有强网络连接性和容量传输才能的网络设备,包括高带宽和低延迟的数字通信办法,例如光纤和高性能互联网契合AIGC产品的要求。
  4. 内容审阅容量:AIGC 产品生成的内容需求进行审阅和精细化调整,以保证内容的精确性和完好性。这需求许多的人工审阅,供给契合要求的人选参加审阅容量的组合当中。此外,跟着 AIGC 的规模发展,产品审阅进程的功率和质量也需求考虑怎么优化。

在应对容量问题时,AIGC 产品需求全面优化和规划体系架构、数据处理和存储、核算和运维等方面,以完成产品的高可靠性和高性能。一起,需求继续跟进技能发展和立异,以坚持 AIGC 产品的竞争力和立异性。

根据这些考虑咱们在运用开发进程中需求考虑以下体系的完成:

  1. 用户级的容量约束,包括存储容量,存储时长,运用次数等等。
  2. 用户试用灰度,如约请机制,分批次约请用户进来,以操控容量的发展,不仅仅是存储、还有处理容量和带宽的容量。
  3. 接入多个第三方审阅渠道,在增加灾备的一起,增加内容审阅的容量。

3 本钱

关于大模型,一般的企业是没有才能开发的,这种状况咱们一般是接第三方的接口。

以 OpenAI 为例,3.1 日,OpenAI 敞开了 ChatGPT 的 API 接口,本钱优化了 90%,百万 token 只需求 2 美元,而且提炼 otken 才能也大幅优化。新上的 GPT-4 要贵一个数量级,从 0.002 到 0.06,涨了 30 倍。

此外,OpenAI 还供给了图画生成和修改的服务,如 DALLE。这些服务的价格取决于图画的分辨率。例如,10241024 的图画每张 0.02 美元,而 256256 的图画每张 0.016 美元。

更多概况见官网: openai.com/pricing

在国内也有一些厂商的供给了完好计划报价,大概是 0.1 到 0.13 每张图。

除了接入 API,有时咱们也会根据开源的模型微调后上线自己的服务,这部分本钱主要是练习的算力本钱和上线后的 GPU 机器。以 ControlNet 模型为例,在公有云上,一台带有 v100 显卡的机器也就能跑一个大模型,且单台机器只能一起为一个用户供给服务。而这样一台 v100 的机器一个月的原价为 7000 多。

不管是调用第三方的 API 还是自行构建模型服务,关于创业公司来说,本钱都挺高的。

假如想在 AIGC 中创业,从一开端就需求想好商业模式和变现手法,而且关于免费用户需求从一开端就约束其试用频率,以操控本钱。

从运用工程视点,咱们大概能够做以下的一些事情:

  1. 排队体系,在本钱方面主要是运用于自己建立的服务,其主要是在用户体会和本钱之间寻觅一个平衡,经过排队的办法将用户的恳求量消峰填谷,以尽或许提升机器的运用率。
  2. 限频限额,对每个用户在运用次数或产出物的量上做限额,以避免歹意的攻击或许某个用户许多占用资源的状况。在限额方面咱们一般能够选用对运用次数,如做图次数,或许对产出物的数量,如生成图片的数量或生成文字的数量等等。能够是日限或许总量约束
  3. 预约系统,提高用户的运用门槛,仅针对方针用户发放资历,削减用户量,提升用户精准度的一起能操控本钱。
  4. 存储约束,第 2 点的约束主要是针对运用的,假如产品有存储的需求,那么在运用上需求对存储空间的巨细或许存储的时长做一些约束,最好是在商业化的逻辑里面把这块加上,因为存储的本钱是一个递进累加的本钱,跟着产品的发展,其本钱会越来越大,假如生成的内容中有视频,且你有几百万上千万的用户,这将是一个十分大的本钱。

以上主要是运用开发领域的本钱,除了这些,其数据本钱也是十分大块的本钱。而数据是人工智能的根底,没有数据就没有模型。AIGC 需求许多的高质量的数据来练习模型,比方文本、图画、音频、视频等。这些数据的获取和处理是一个巨大的应战,需求投入许多的时刻和金钱。

一方面,数据的来历或许不容易找到或许不免费。比方想要生成游戏场景或许人物,就需求搜集各种类型和风格的游戏资料;想要生成影视剧本或许小说,就需求搜集各种类型和风格的文学著作;想要生成音乐或许歌曲,就需求搜集各种类型和风格的音乐资料。这些数据或许涉及版权问题,需求付费购买或许授权运用。

另一方面,数据的质量或许不够高或许不一致。比方想要生成传神的人脸图画,就需求搜集各种视点和表情的人脸相片;想要生成流畅的语音或许歌声,就需求搜集各种语言和口音的语音样本;想要生成合理的对话或许故事情节,就需求搜集各种场景和情感的对话或许故事文本。这些数据或许存在噪声、过错、重复、缺失等问题,需求进行清洗、标示、对齐等处理。

因而,在 AIGC 中运用现有数据是一种常见而有用的办法。经过运用揭露可用或许自行搜集整理好了格局统一且质量较高且数量较多且契合方针使命需求且无版权争议(例如:Common Crawl) 的数据集来练习模型能够节省许多时刻和金钱。

4 法令法规和版权

4.1 法令法规

2022 年 11 月 25 日,国家网信办、工信部、公安部联合发布《互联网信息服务深度组成办理规则》(以下简称《规则》)。其间提出,深度组成服务供给者和技能支持者供给人脸、人声等生物辨认信息修改功用的,应当提示深度组成服务运用者依法告知被修改的个人,并获得其独自同意。《规则》自 2023 年 1 月 10 日起实施。

该规则的第五章第二十三条,对「深度组成技能」做了规则:「运用深度学习、虚拟现实等生成组成类算法制造文本、图画、音频、视频、虚拟场景等网络信息的技能。」,这也便是咱们所说的 AIGC 的领域了。

在《规则》的第六条、第七条、第十一条等对服务供给主体责任进行了清晰的界说,详细包括:

  • 不得运用深度组成服务制造、复制、发布、传达法令、行政法规制止的信息,或从事法令、行政法规制止的活动。
  • 建立健全用户注册、算法机制机理审阅、科技伦理审查、信息发布审阅、数据安全、个人信息维护、反电信网络欺诈、应急处置等办理原则,具有安全可控的技能保证办法。
  • 拟定和揭露办理规则、渠道公约,完善服务协议,执行实在身份信息认证原则。
  • 加强深度组成内容办理,采纳技能或许人工办法对输入数据和组成成果进行审阅,建立健全用于辨认违法和不良信息的特征库,记载并留存相关网络日志。
  • 建立健全辟谣机制,发现运用深度组成服务制造、复制、发布、传达虚伪信息的,应当及时采纳辟谣办法,保存有关记载,并向网信部门和有关主管部门报告。

将上面的条文翻译成技能上的点便是要构建以下的体系或服务

  1. 用户实名注册及办理体系。
  2. 数据安全及灵敏信息办理体系和体系。
  3. 内容安全办理体系,这儿咱们惯例会选用第三方的服务,而不是自己开发。

4.2 版权

AIGC 的版权一直存在争议,其根源在于 AIGC 模型的构成和完善依赖于许多的数据练习,而用于练习的数据往往包括受版权法维护的内容。AIGC 这种不同于传统的创造办法,现在没有有清晰的法令规则和司法裁决来界定其版权归属和维护规模。

2023 年 1 月 23 日,美国三名漫画艺术家针对包括 Stability AI 在内的三家 AIGC 商业运用公司,在加州北区法院建议集体诉讼,指控 Stability AI 研发的 Stable Diffusion 模型以及三名被告各自推出的、根据上述模型开发的付费 AI 图画生成工具构成版权侵权。

这应该算是全球首例闻名的 AIGC 商业化运用领域,算法模型及练习数据版权侵权案。其主要争议点在于当时国内外关于 AIGC 获取与运用版权著作进行算法练习是否合法存在诸多争议,尚无立法和司法层面的清晰共识,而且关于模型练习进程中运用版权著作的办法、运用行为的版权定性仍有待剖析清晰。

在中国,核算机软件和著作的著作权属于开发者或许相关安排,而现行的《著作权法》框架难以直接认定人工智能或电脑算法为著作的作者。可是现阶段各界关于人工智能技能创造物的著作权维护全体上呈现积极的态度,主流的司法实践持类似的立场。AIGC 版权维护的是运用 AI 体系的人,不是 AI 自身,其维护的前提还是运用 AI 创造的人,在创造进程中付出了智力或创造性的劳动。

现在,一些安排和个人在运用 AIGC 著作时,通常会极力寻觅并恪守相应的版权规则和品德原则,尊重原作者的知识产权,一起也会测验探究 AIGC 版权的可行性和维护办法。

咱们需求继续的关注版权方面的发展。

关于版权维护咱们能够做如下的一些事情:

  • 数据授权和答应:在运用受版权维护的数据进行模型练习时,尽量获取数据所有者的授权和答应。这能够经过签订合同、购买答应证或参加版权安排等办法完成。
  • 数据脱敏和匿名化:在运用受版权维护的数据进行模型练习时,尽量对数据进行脱敏和匿名化处理,以下降侵权危险。例如,能够删除文本中的作者名、著作名等灵敏信息,或将图画中的人物、地点等特征进行含糊处理。
  • 版权标识和归属:在发布和传达 AIGC 生成的著作时,清晰标示著作的版权归属和来历。例如,能够在著作页面上增加版权声明、原作者名和答应证信息等。
  • 遵从品德原则:在运用 AIGC 技能进行创造时,遵从职业品德原则和社会公序良俗。例如,不要运用 AIGC 技能制造和传达违法、侵权、淫秽、暴力等不良内容。

5 模型的成见性

现在咱们常用到的 AIGC 技能的核心都是在大规模数据集上预先进行练习的模型,大多数的运用者都是在特定领域或笔直场景下进行微调。这种预练习模型,对比彻底由人工规则操控的专家体系来说,预练习模型就像一个黑盒子。没有人能预知其出产出来的内容是什么。

预练习模型的成见性通常来自练习数据会集的样本散布不均或许存在体系性的偏差。比方:

  • 在 chatGPT 模型中的语言性成见,中文的内容语料只占了 0.1% 不到,更精确来说应该是 0.09905%,从而使得运用中文的作用远不如英文。
  • 2.14 日情人节前夕发布的 ControlNet 模型,在测验进程中发现其会生成较多的性感卡通类图片,一些没有问题的相片或许词语都能生成极度「性感」的图片,比方苦楚这个词语。
  • 关于时刻的成见性,模型只能了解其生成之前的状况,或许说只能了解其数据会集的信息,在其生成后就没有信息了,除非快速迭代模型。
  • DALLE 2 具有明显的种族和性别刻板印象。

除了以上的比方,还有在性别、地域、文明等的成见性,这些都是因为练习得到的模型并不是十分可控的,模型能够看做对练习集散布的一个拟合。那么反应到生成模型中,练习数据的散布便是影响生成内容的质量最重要的一个要素。于咱们能够采纳一些办法来躲避将模型的成见展现给用户。

  1. 数据搜集阶段:搜集更多多样化的练习数据,以保证练习数据集具有平衡性和代表性,对练习数据进行剖析和筛选,扫除或许引进成见的要素。
  2. 模型练习阶段:在微调阶段运用公平性指标,从而评价模型在不同群体中的表现是否公平和平衡;不断监控和更新模型,及时发现并纠正成见性问题。对一些特定的使命,能够运用搬迁学习等技能,以削减成见的影响。
  3. 产品运用阶段:经过人工或许根据深度学习的模型判别生成的内容是否具有成见性,以躲避一些极点的场景。

咱们在上线 AIGC 产品时必定需求深入的了解其成见性,及时运用必定的办法躲避或许削减其成见性。

想起网上看到的一句话:「在这个历史性的转折点,只能向前走,不能往后看,过往都被冲得看不着了。