被“薄纱”的文心一言，真的一无是处？-六虎

大家好，我是王有志，欢迎和我聊技术，聊流浪在外的日子。本文单纯讨论文心一言，不涉及其母公司百度的所作所为

3月16日百度交卷了，正式推出了自己的知识增强大言语模型文心一言。

作为全球第二家，中国第一家正式推出的大言语模型，文心一言被许多人寄予厚望，期望它能到达chatGPT的水准。但李彦宏很清楚，文心一言暂时还没有才能对标chatGPT，发布会现场他也说到：“今日的文心一言，大家的期望值是要对标chatGPT（3.5），甚至要对标GPT 4，那么这个门槛还是很高的”。

当然，除了期盼外，还有许多单纯期望文心一言出丑的，或许说期望百度出丑的。发布会开端前，各大交流群现已疯狂的转发这张文心一言与chatGPT的比照图。

玩梗的高潮出现在发布会的演示环节上，鉴于Google的前车之鉴，百度挑选经过提早录制的演示视频来展示文心一言的才能，“chatPPT”这个爱称随之诞生。那么文心一言究竟怎么样？真的是“chatPPT”吗？

刚好我拿到了文心一言的测验资格，手上也有OpenAI的账号，那么咱们来做个全面的比照。首先是参赛选手：

大言语模型	公司	说明	运用条件
文心一言	百度	被寄予厚望的“国产之光”	内测中，需求申请
chatGPT 3.5	OpenAI	现在的标杆，代表了最高的技术水平	科学上网，关联国外手机号
BingAI	微软	大头儿子（chatGPT）和小头爸爸（bing）	科学上网，或许特别配置

测验维度：

中文语义了解，测验“中文八级”标题。
数学逻辑计算，测验“趣味”数学标题。
代码生成才能，我应该还不会被取代吧？
角色扮演才能，作为一个乐子人，必须要找点乐子。

中文了解

先用文心一言发布会上的洛阳纸贵来打听下它们。

文心一言和BingAI的答复算是中规中矩，chatGPT的答复多少是有些离谱了。当然这道题文心一言和bingAI都能够利用本身具有的查找才能完成，多少算是欺压chatGPT了。

换一道标题：

“小明，窗台上落了鸟屎，去擦一下好么？” “我擦！！我不擦！！” 问：小明擦不擦窗台？

这道题的难度并不大，它们都给出了正确的答案，bingAI甚至能够识别出这是一个笑话。

再换一道标题：

人要行，干一行行一行，一行行行行行，要是不可，干一行不可一行，一行不可行行不可！请问下列说法哪个对？
A.人行，行行行
B.人行，行行不可
C.人不可，行行行

正确答案是A。文心一言和bingAI都给出了正确的答复，文心一言甚至都学会进行额定的剖析了。但chatGPT的答复多少是有些离谱了，只能说是毫不相干吧。

现在在我的测验中，文心一言在中文语义的了解上是优于chatGPT的。尽管测验中文语义了解多少是有点欺压chatGPT，但作为用户，运用的进程中肯定是优先母语的。

Tips：OpeanAI现在现已制止了大陆及港澳地区的手机号注册。

数学计算

从文心一言发布会上那道过错的鸡兔同笼开端：

chatGPT给出了具体的答复进程，并得出正确定论；文心一言直接给出了正确的定论；至于bing AI的答复，我却是有点猎奇，按理应该给出和chatGPT相同的答复，难道说是微软做了反向优化？

再问一道题：

用1，2，3，4，5这5个数字计算出24，每个数字只能出现1次。

我第一时刻想到的答案是 $54+3+2−1=245\times4+3+2-1=24$ ，奈何三个AI都没给出正确答案，难道是我的标题有问题？

咱们来看数学逻辑计算环节各参赛选手的得分情况：

参赛选手	第一题	第二题
文心一言	正确	过错，且没有识别出是数学题
chatGPT	正确，且有具体答复	过错，识别为数学题
bingAI	过错，剖析进程拉胯	过错，识别为数学题

仅仅以这两道标题的成果来看，我心中的排名是： $chatGPT>文心一言≈bingAIchatGPT>文心一言\approx bingAI$ 。

Tips：bingAI给出的过错答案中，第二个答案略微改动下便是正确答案了。

代码生成

从chatGPT诞生之初，取代程序员的的言辞就甚嚣尘上。那么以现在的技术水平，它们真的能取代程序员吗？出一道简略的标题：用html写一个时刻戳转化的网页。

先来看文心一言给出的答案：

文心一言知道要做什么，确实也供给了一个网页，但却没有供给按钮的转化办法，别的它没有了解时刻戳是什么。

接着是chatGPT的答案：

chatGPT的答案是能够运转的，也能成功将时刻戳转化为当前时刻。

最后是bingAI的答案：

bingAI的答案也是没有问题的，能够成功运转，并且网页风格和chatGPT完全一致。别的，bingAI也给出了改进主张。

除了这些简略的功用外，我还尝试着让它们仨做一些杂乱的功用，可是成果都不是很理想，东西类或许通用代码能够写的有模有样，修修补补也能用，不过一旦牵扯到事务逻辑，它们也只能给出简略且毫无价值的Demo。

太好了，暂时我还不会失业~~

角色扮演

上面测了许多不正经的，接下来咱们测点正经内容。

bingAI会直接回绝了乐子人的恳求：

文心一言也回绝我：

只要chatGPT容许了我的恳求：

尽管是容许了我，但不能聊两三句就结束啊。

百无禁忌

比照国内外的产品时，许多人都会把能聊敏感论题作为重要标准之一。文心一言不用多说，有些论题是不能聊的，有些论题尽管能够聊，但答复过后会关闭对话框，别的，从前面的截图中也能够看到，布景上布满了水印。

那么外国的月亮真的就比较圆吗？其实也不是，从上面来看，chatGPT不肯意谈及政治，bingAI也一样，某些问题压根就不会答复：

其实每个国家和地区都有自己的敏感论题，不然大洋彼岸怎么会诞生出近百种性别？

4个回合的较量中，文心一言只要在中文语义的了解上略微胜出，能够说是被全方位的“薄纱”。那么你乐意运用文心一言吗？如果是我，我想我会给文心一言多一点点宽恕，尝试着运用它。

对了，如果你具有科学上网的条件，却苦于手机号的限制无法运用chatGPT，关注【王有志】并回复【GPT】，我来帮你，数量有限~~

被“薄纱”的文心一言，真的一无是处？

中文了解

数学计算

代码生成

角色扮演

百无禁忌

相关文章

OpenAI新模型曝重大飞跃：AGI雏形或威胁人类，也成Altman被解雇导火索！

SpringBoot结合Quartz实现定时任务

消息推送平台有没有保证数据不丢？

关于VQ-GAN的记录

作者信息