大家好,我是王有志,欢迎和我聊技术,聊流浪在外的日子。本文单纯讨论文心一言,不涉及其母公司百度的所作所为
3月16日百度交卷了,正式推出了自己的知识增强大言语模型文心一言。
作为全球第二家,中国第一家正式推出的大言语模型,文心一言被许多人寄予厚望,期望它能到达chatGPT的水准。但李彦宏很清楚,文心一言暂时还没有才能对标chatGPT,发布会现场他也说到:“今日的文心一言,大家的期望值是要对标chatGPT(3.5),甚至要对标GPT 4,那么这个门槛还是很高的”。
当然,除了期盼外,还有许多单纯期望文心一言出丑的,或许说期望百度出丑的。发布会开端前,各大交流群现已疯狂的转发这张文心一言与chatGPT的比照图。
玩梗的高潮出现在发布会的演示环节上,鉴于Google的前车之鉴,百度挑选经过提早录制的演示视频来展示文心一言的才能,“chatPPT”这个爱称随之诞生。那么文心一言究竟怎么样?真的是“chatPPT”吗?
刚好我拿到了文心一言的测验资格,手上也有OpenAI的账号,那么咱们来做个全面的比照。首先是参赛选手:
大言语模型 | 公司 | 说明 | 运用条件 |
---|---|---|---|
文心一言 | 百度 | 被寄予厚望的“国产之光” | 内测中,需求申请 |
chatGPT 3.5 | OpenAI | 现在的标杆,代表了最高的技术水平 | 科学上网,关联国外手机号 |
BingAI | 微软 | 大头儿子(chatGPT)和小头爸爸(bing) | 科学上网,或许特别配置 |
测验维度:
-
中文语义了解,测验“中文八级”标题。
-
数学逻辑计算,测验“趣味”数学标题。
-
代码生成才能,我应该还不会被取代吧?
-
角色扮演才能,作为一个乐子人,必须要找点乐子。
中文了解
先用文心一言发布会上的洛阳纸贵来打听下它们。
文心一言和BingAI的答复算是中规中矩,chatGPT的答复多少是有些离谱了。当然这道题文心一言和bingAI都能够利用本身具有的查找才能完成,多少算是欺压chatGPT了。
换一道标题:
“小明,窗台上落了鸟屎,去擦一下好么?” “我擦!!我不擦!!” 问:小明擦不擦窗台?
这道题的难度并不大,它们都给出了正确的答案,bingAI甚至能够识别出这是一个笑话。
再换一道标题:
人要行,干一行行一行,一行行行行行,要是不可,干一行不可一行,一行不可行行不可!请问下列说法哪个对?
A.人行,行行行
B.人行,行行不可
C.人不可,行行行
正确答案是A。文心一言和bingAI都给出了正确的答复,文心一言甚至都学会进行额定的剖析了。但chatGPT的答复多少是有些离谱了,只能说是毫不相干吧。
现在在我的测验中,文心一言在中文语义的了解上是优于chatGPT的。尽管测验中文语义了解多少是有点欺压chatGPT,但作为用户,运用的进程中肯定是优先母语的。
Tips:OpeanAI现在现已制止了大陆及港澳地区的手机号注册。
数学计算
从文心一言发布会上那道过错的鸡兔同笼开端:
chatGPT给出了具体的答复进程,并得出正确定论;文心一言直接给出了正确的定论;至于bing AI的答复,我却是有点猎奇,按理应该给出和chatGPT相同的答复,难道说是微软做了反向优化?
再问一道题:
用1,2,3,4,5这5个数字计算出24,每个数字只能出现1次。
我第一时刻想到的答案是54+3+2−1=245\times4+3+2-1=24,奈何三个AI都没给出正确答案,难道是我的标题有问题?
咱们来看数学逻辑计算环节各参赛选手的得分情况:
参赛选手 | 第一题 | 第二题 |
---|---|---|
文心一言 | 正确 | 过错,且没有识别出是数学题 |
chatGPT | 正确,且有具体答复 | 过错,识别为数学题 |
bingAI | 过错,剖析进程拉胯 | 过错,识别为数学题 |
仅仅以这两道标题的成果来看,我心中的排名是:chatGPT>文心一言≈bingAIchatGPT>文心一言\approx bingAI。
Tips:bingAI给出的过错答案中,第二个答案略微改动下便是正确答案了。
代码生成
从chatGPT诞生之初,取代程序员的的言辞就甚嚣尘上。那么以现在的技术水平,它们真的能取代程序员吗?出一道简略的标题:用html写一个时刻戳转化的网页。
先来看文心一言给出的答案:
文心一言知道要做什么,确实也供给了一个网页,但却没有供给按钮的转化办法,别的它没有了解时刻戳是什么。
接着是chatGPT的答案:
chatGPT的答案是能够运转的,也能成功将时刻戳转化为当前时刻。
最后是bingAI的答案:
bingAI的答案也是没有问题的,能够成功运转,并且网页风格和chatGPT完全一致。别的,bingAI也给出了改进主张。
除了这些简略的功用外,我还尝试着让它们仨做一些杂乱的功用,可是成果都不是很理想,东西类或许通用代码能够写的有模有样,修修补补也能用,不过一旦牵扯到事务逻辑,它们也只能给出简略且毫无价值的Demo。
太好了,暂时我还不会失业~~
角色扮演
上面测了许多不正经的,接下来咱们测点正经内容。
bingAI会直接回绝了乐子人的恳求:
文心一言也回绝我:
只要chatGPT容许了我的恳求:
尽管是容许了我,但不能聊两三句就结束啊。
百无禁忌
比照国内外的产品时,许多人都会把能聊敏感论题作为重要标准之一。文心一言不用多说,有些论题是不能聊的,有些论题尽管能够聊,但答复过后会关闭对话框,别的,从前面的截图中也能够看到,布景上布满了水印。
那么外国的月亮真的就比较圆吗?其实也不是,从上面来看,chatGPT不肯意谈及政治,bingAI也一样,某些问题压根就不会答复:
其实每个国家和地区都有自己的敏感论题,不然大洋彼岸怎么会诞生出近百种性别?
4个回合的较量中,文心一言只要在中文语义的了解上略微胜出,能够说是被全方位的“薄纱”。那么你乐意运用文心一言吗?如果是我,我想我会给文心一言多一点点宽恕,尝试着运用它。
对了,如果你具有科学上网的条件,却苦于手机号的限制无法运用chatGPT,关注【王有志】并回复【GPT】,我来帮你,数量有限~~