昨天看到一篇国金证券的研报,其中对GPT4.0、3.5和文心一言做了一组详细测试。
最后立下的结论大致是这样:
从研报结论来看,国金证券说这三算是互有胜负,总体上GTP-4略胜一筹。
不过我仔细瞅了眼对比结果,感觉研报说的还是太委婉了…
尤其是在数字、代码、归纳和推理这些能力,GPT4几乎把文心一言给完爆。
我放一些研报中的案例,大家可以直观感受一下模型的差距~
第一个是简单数学问题,求线性方程组:
文心一言的回答,直接跳过计算流程,给了个错误答案,因为没有流程,连错哪儿都不知道
相比之下GPT4.0把算法流程给讲的比较清楚,也很细节。
重点是国金证券竟然说GPT4.0的Y值算错了,说GPT3.5算的Y=3/7是正确答案,看的我一脸疑惑。
大家看看,难道是我多年不做题,数学退化了?
其次就是文学创作这块,这俩也是有一些差距:
比如写一个刘红发大财的故事,文心一言理解成人物是刘红发。
而且GPT4.0在故事的形象度、丰富度和生动度上来说要牛X不少,感觉已经有写小说的潜力了。
文心一言虽然故事也凑合,但细节度方面上看暂时被完爆…
接着看逻辑推理能力。
这环节文心一言又错了,直接顺推说,点了沙拉就一定点了牛排。
而事实上就是纯粹的错误。
GPT4.0给了正确的答案。
此外逻辑推理环节还有一个。
就是问“为什么我总是在最后一个地方找到丢失的物品”。
实际上这是给AI挖了个坑,本质上这是个谬论。
然而文心一言也压根没注意到这个问题,然后说了一通没有逻辑的解释。
而GPT4一开始就说出了问题的本质,“丢失的物品肯定是最后一个地方找到的”。
不过后面的解释我感觉没有必要,属于是明明说对了又强行解释一遍…
不过文心一言也不是完全没有优点,在一些中文类目,他经常会给出一些实操案例。
先不说能不能行,但它起码也算是有自己的特色了,敢于推荐…
比如同样都是问如何赚100万,文心一言给出了一些具体的实操案例,而不是空话,比较有趣。
这估计也和模型的调教方式有关哈。
GPT4在些问题里边回答的就比较像是套用模板,感觉过于死板。
然后就是在投资理财这块,直接问想买一个年化4%的理财,文心一言竟然给了一款具体名称的银行理财(其实是货币基金)
先不说合不合规,货基4%现在是肯定不可能做到的。
目前它最新的7日年化也只有2%左右,我也不知道文心一言哪来的结论。
不会以后问我想看个什么病,然后给我推荐莆田的某医院吧~
相比之下GPT要严谨很多,虽然说的也是空话为主,但涉及金融投资这块GPT似乎都是这个样,没法。
不过文心一言有一个案例挺牛,在揣摩男女情感心思上,这轮赢麻了。
这次是解释“你没有错,都是我的错”这句话,文心一言在男女吵架后对反话的理解完全到位,点赞。
不过后面补充这块就有点瞎扯了,大家自行判断。
而GPT的话,说的就是传统的字面意义观点,显然还是没完全理解我们中国特色表达方式。
但后面GPT也补救了一下,说不能完全确定,要看具体情况,算是挽回一些场子。
总的来说,研报中的测试大概就这些,对比结果一目了然,GPT4.0更严谨,“智商”似乎也更高一些。
不过文心一言在“情商”方面也算能打,有更多中文数据训练的优势,至少对话一些日常问题能应付。
好比GPT更像逻辑思维缜密的直男,而文心一言更像一个心直口快,大大咧咧的人。
只不过面对高难度题目来说,智商明显还不够,毕竟技术差距摆在那,慢慢来吧。
大概就说这些,大家还有啥观点,留言区也可以说说。