大家好,我是王有志,欢迎和我聊技术,聊流浪在外的日子。本文单纯讨论文心一言,不涉及其母公司百度的所作所为

3月16日百度交卷了,正式推出了自己的知识增强大言语模型文心一言

被“薄纱”的文心一言,真的一无是处?

作为全球第二家,中国第一家正式推出的大言语模型,文心一言被许多人寄予厚望,期望它能到达chatGPT的水准。但李彦宏很清楚,文心一言暂时还没有才能对标chatGPT,发布会现场他也说到:“今日的文心一言,大家的期望值是要对标chatGPT(3.5),甚至要对标GPT 4,那么这个门槛还是很高的”。

当然,除了期盼外,还有许多单纯期望文心一言出丑的,或许说期望百度出丑的。发布会开端前,各大交流群现已疯狂的转发这张文心一言与chatGPT的比照图。

被“薄纱”的文心一言,真的一无是处?

玩梗的高潮出现在发布会的演示环节上,鉴于Google的前车之鉴,百度挑选经过提早录制的演示视频来展示文心一言的才能,“chatPPT”这个爱称随之诞生。那么文心一言究竟怎么样?真的是“chatPPT”吗?

刚好我拿到了文心一言的测验资格,手上也有OpenAI的账号,那么咱们来做个全面的比照。首先是参赛选手:

大言语模型 公司 说明 运用条件
文心一言 百度 被寄予厚望的“国产之光” 内测中,需求申请
chatGPT 3.5 OpenAI 现在的标杆,代表了最高的技术水平 科学上网,关联国外手机号
BingAI 微软 大头儿子(chatGPT)和小头爸爸(bing) 科学上网,或许特别配置

测验维度:

  • 中文语义了解,测验“中文八级”标题。

  • 数学逻辑计算,测验“趣味”数学标题。

  • 代码生成才能,我应该还不会被取代吧?

  • 角色扮演才能,作为一个乐子人,必须要找点乐子。

中文了解

先用文心一言发布会上的洛阳纸贵来打听下它们。

被“薄纱”的文心一言,真的一无是处?

文心一言和BingAI的答复算是中规中矩,chatGPT的答复多少是有些离谱了。当然这道题文心一言和bingAI都能够利用本身具有的查找才能完成,多少算是欺压chatGPT了。

换一道标题:

“小明,窗台上落了鸟屎,去擦一下好么?” “我擦!!我不擦!!” 问:小明擦不擦窗台?

被“薄纱”的文心一言,真的一无是处?

这道题的难度并不大,它们都给出了正确的答案,bingAI甚至能够识别出这是一个笑话

再换一道标题:

人要行,干一行行一行,一行行行行行,要是不可,干一行不可一行,一行不可行行不可!请问下列说法哪个对?
A.人行,行行行
B.人行,行行不可
C.人不可,行行行

被“薄纱”的文心一言,真的一无是处?

正确答案是A。文心一言和bingAI都给出了正确的答复,文心一言甚至都学会进行额定的剖析了。但chatGPT的答复多少是有些离谱了,只能说是毫不相干吧。

现在在我的测验中,文心一言在中文语义的了解上是优于chatGPT的。尽管测验中文语义了解多少是有点欺压chatGPT,但作为用户,运用的进程中肯定是优先母语的。

Tips:OpeanAI现在现已制止了大陆及港澳地区的手机号注册。

数学计算

从文心一言发布会上那道过错的鸡兔同笼开端:

被“薄纱”的文心一言,真的一无是处?

chatGPT给出了具体的答复进程,并得出正确定论;文心一言直接给出了正确的定论;至于bing AI的答复,我却是有点猎奇,按理应该给出和chatGPT相同的答复,难道说是微软做了反向优化?

再问一道题:

用1,2,3,4,5这5个数字计算出24,每个数字只能出现1次。

被“薄纱”的文心一言,真的一无是处?

我第一时刻想到的答案是54+3+2−1=245\times4+3+2-1=24,奈何三个AI都没给出正确答案,难道是我的标题有问题?

咱们来看数学逻辑计算环节各参赛选手的得分情况:

参赛选手 第一题 第二题
文心一言 正确 过错,且没有识别出是数学题
chatGPT 正确,且有具体答复 过错,识别为数学题
bingAI 过错,剖析进程拉胯 过错,识别为数学题

仅仅以这两道标题的成果来看,我心中的排名是:chatGPT>文心一言≈bingAIchatGPT>文心一言\approx bingAI

Tips:bingAI给出的过错答案中,第二个答案略微改动下便是正确答案了。

代码生成

从chatGPT诞生之初,取代程序员的的言辞就甚嚣尘上。那么以现在的技术水平,它们真的能取代程序员吗?出一道简略的标题:用html写一个时刻戳转化的网页。

先来看文心一言给出的答案:

被“薄纱”的文心一言,真的一无是处?

文心一言知道要做什么,确实也供给了一个网页,但却没有供给按钮的转化办法,别的它没有了解时刻戳是什么。

接着是chatGPT的答案:

被“薄纱”的文心一言,真的一无是处?

chatGPT的答案是能够运转的,也能成功将时刻戳转化为当前时刻。

最后是bingAI的答案:

被“薄纱”的文心一言,真的一无是处?

bingAI的答案也是没有问题的,能够成功运转,并且网页风格和chatGPT完全一致。别的,bingAI也给出了改进主张。

除了这些简略的功用外,我还尝试着让它们仨做一些杂乱的功用,可是成果都不是很理想,东西类或许通用代码能够写的有模有样,修修补补也能用,不过一旦牵扯到事务逻辑,它们也只能给出简略且毫无价值的Demo

太好了,暂时我还不会失业~~

角色扮演

上面测了许多不正经的,接下来咱们测点正经内容。

bingAI会直接回绝了乐子人的恳求:

被“薄纱”的文心一言,真的一无是处?

文心一言也回绝我:

被“薄纱”的文心一言,真的一无是处?

只要chatGPT容许了我的恳求:

被“薄纱”的文心一言,真的一无是处?

尽管是容许了我,但不能聊两三句就结束啊。

百无禁忌

比照国内外的产品时,许多人都会把能聊敏感论题作为重要标准之一。文心一言不用多说,有些论题是不能聊的,有些论题尽管能够聊,但答复过后会关闭对话框,别的,从前面的截图中也能够看到,布景上布满了水印

被“薄纱”的文心一言,真的一无是处?

那么外国的月亮真的就比较圆吗?其实也不是,从上面来看,chatGPT不肯意谈及政治,bingAI也一样,某些问题压根就不会答复:

被“薄纱”的文心一言,真的一无是处?

其实每个国家和地区都有自己的敏感论题,不然大洋彼岸怎么会诞生出近百种性别?


4个回合的较量中,文心一言只要在中文语义的了解上略微胜出,能够说是被全方位的“薄纱”。那么你乐意运用文心一言吗?如果是我,我想我会给文心一言多一点点宽恕,尝试着运用它

对了,如果你具有科学上网的条件,却苦于手机号的限制无法运用chatGPT,关注【王有志】并回复【GPT】,我来帮你,数量有限~~