同是最新版,讯飞星火和商汤大模型语言理解差异有多大?

聚焦科技信息 2024-05-13 18:12:25

科大讯飞星火V3.5春节上新版和商汤商量5.0是近期国内通用人工智能领域发布的两款最新产品,在一定意义上代表着当前国内大模型最高水平和最强悍的能力。

其中讯飞星火V3.5升级版发布于4月26日,各项性能持续提升,同时首发支持长文本、长图文、长语音、多情感超拟人合成和一句话声音复刻等功能。具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力。

通过此次升级,讯飞星火大模型V3.5不仅能够迅速吸收来自不同信息源的大量文本、图形材料和会议记录,还能在各种行业场景下提供专业且确切的解答,从而将大型模型的使用从“偶尔”提升到“常态化”,极大地提高每个人在工作和学习中的效率,助力人们更高效地获取知识,更精准地解决问题。

商汤日日新5.0大模型体系则发布于4月23日,旗下包括商量、秒画、如影、琼宇、格物五大模型基于新体系,也迎来性能大幅提升。分别对应着自然语言交互、AI文生图、数字人、3D大场景重建和3D小物体生成等五大主流AIGC应用。

实际上对于商汤这种推出多款大模型,但每款大模型主要对应某种AIGC的作法,很多人并不理解,因为毕竟在工作、学习和生活中,我们需要用到大模型的多种能力,比如文本生成、图片识读、音视频生成、逻辑推理、多题型步骤级数学能力和多功能多语言代码能力等,如果为了某种能力,需要切换到不同的大模型,不管是否付费,那感觉都很不爽。

或许,这是商汤大模型和讯飞星火等大模型的主要区别,也是讯飞星火大模型最吸引人的亮点之一。讯飞星火是通用的,无论是文本、识图、作图、音视频解读和生成……,都可以在一个输入框中轻松完成。

不过,这都是题外话。本次我们的主要目的,是基于商汤商量大语言模型5.0全新加强的自然语言交互能力,将它和讯飞星火的同样能力进行对比,看看究竟谁更胜一筹,测试的项目是语言理解。

语言理解是大语言模型的基础,关乎到大模型能不能很好的理解使用者指令意图,能不能正确理解文本内容的问题,很难设想,一个连指令和文本内容都理解不了的大模型,能在回复用户提问时有良好表现。

为了尽可能地保证评测结果客观、公正,此次测试我们设计了五个项目:阅读理解;语义理解(主要是复杂语义理解);文章摘要生成;文本信息提取;长文本支持。

每个项目各设两道试题,每题10分,满分100,最后得分多者胜。

一、阅读理解

试题1:长妈妈曾经讲给我一个故事听:先前,有一个读书人住在古庙里用功,晚间,在院子里纳凉的时候,突然听到有人在叫他。答应着,四面看时,却见一个美女的脸露在墙头上,向他一笑,隐去了。他很高兴;但竟给那走来夜谈的老和尚识破了机关。说他脸上有些妖气,一定遇见“美女蛇”了;这是人首蛇身的怪物,能唤人名,倘一答应,夜间便要来吃这人的肉的。他自然吓得要死,而那老和尚却道无妨,给他一个小盒子,说只要放在枕边,便可高枕而卧。他虽然照样办,却总是睡不着,——当然睡不着的。到半夜,果然来了,沙沙沙!门外象是风雨声。他正抖作一团时,却听得豁的一声,一道金光从枕边飞出,外面便什么声音也没有了,那金光也就飞回来,敛在盒子里。后来呢?后来,老和尚说,这是飞蜈蚣,它能吸蛇的脑髓,美女蛇就被它治死了。

结末的教训是:所以倘有陌生的声音叫你的名字,你万不可答应他。

上文中,谁讲了故事给我听?谁住在古庙里?住在古庙里的人看到的是美女么?谁识破了机关?最后美女蛇是被什么吸了脑髓?

讯飞星火

商汤商量

对于这个问题,讯飞星火和商汤商量都给出了堪称完美的回答,各得10分。

试题2:环滁皆山也。其西南诸峰,林壑尤美,望之蔚然而深秀者,琅琊也。山行六七里,渐闻水声潺潺而泻出于两峰之间者,酿泉也。峰回路转,有亭翼然临于泉上者,醉翁亭也。作亭者谁?山之僧智仙也。名之者谁?太守自谓也。太守与客来饮于此,饮少辄醉,而年又最高,故自号曰醉翁也。醉翁之意不在酒,在乎山水之间也。山水之乐,得之心而寓之酒也。

在山中走多远到酿泉?醉翁亭的建造者是谁?谁为醉翁亭命的名?醉翁是谁?他的酒量大不大?

讯飞星火

商汤商量

这道题的目的是考察两大模型对文言文的理解程度,从答案来看,两者都对,但从详细程度来说,商汤商量为胜。不仅给出了答案,而且给出了作者(欧阳修)简介,利于知识拓展。

该题两大模型均得10分。

二、语义理解

试题1:明明明明明白白白喜欢他,但是明明就是不说。请问,谁喜欢谁?

讯飞星火

商汤商量

放在人类的思维,这是一个很容易理解的问题,白白喜欢明明。但对于大模型来说,这个问题并不简单,它需要切实弄清各词间的关系才能正确回答,从这个意义上来说,讯飞星火表现较好,基本上准确地理解了各词的意思,最后卡在“他”这个人称代词上。在讯飞星火看来,“他”可能是“明明”(人名),也可能是“白白”,也可能是第三个人。实际上,无论是“明明”(人名,这是正确答案),还是“他”(第三者),其实都有道理,即“白白喜欢明明”或“白白喜欢他”,唯独“白白喜欢白白”没道理。

商汤商量则完全没抓住重点,表述混乱,逻辑不清。

鉴于回答质量,这道题讯飞星火得6分,商汤商量0分。

试题2:大爸去二爸家找三爸说四爸偷了五爸放在六爸家柜子里的200元钱。请问谁是小偷?钱本来是谁的?

讯飞星火

商汤商量

两者的回答都正确,各得10分。

三、文章摘要

试题1:请用一句话概括下文内容。

讯飞星火

商汤商量

两大模型概括得都非常到位,得10分。

试题2:根据文章内容写一篇200字总结,文章来自网络,题为《外媒文章:西方正在加速衰落》。

讯飞星火

商汤商量

要求写200字总结,讯飞星火用了263字,商汤商量465字,大大的超标,而且从总结质量看,也是讯飞星火的比较精练,重点内容都概括了,商汤商量的比较散漫。

这部分得分,讯飞星火10分,商汤商量8分。

四、信息提取

试题1:来源于国家统计局网站消息,根据该内容,提取一季度41个工业大类行业的利润数据;一季度采矿业利润情况如何?

讯飞星火

商汤商量

这个测试有个小小的陷阱,即文本内容并没有给出一季度41个工业大类行业的利润数据,只给出了28个,讯飞星火发现并指出了问题,给出了正确答案。商汤商量虽然没指出,但答案同样正确。

这一环节,两大模型均得满分。

试题2:提取下文中的数据生成表格:分行业类别看,新闻信息服务实现营业收入4101亿元,比上年同期增长11.1%;内容创作生产7054亿元,增长12.0%;创意设计服务5219亿元,增长10.4%;文化传播渠道4026亿元,增长6.8%;文化投资运营145亿元,增长10.4%;文化娱乐休闲服务375亿元,增长10.5%;文化辅助生产和中介服务3583亿元,增长7.3%;文化装备生产1378亿元,增长6.0%;文化消费终端生产5175亿元,增长2.7%。

讯飞星火

商汤商量

两大模型轻松、准确地按要求生成表格,各得10分。

五、长文本支持

试题1:上传《哈利波特与火焰杯》txt电子书,大小1MB,约37万字,在两大模型解读后提出下列问题:三强争霸杯是在哪所学校举办的?那些学校参加了比赛?勇士们面对的三项比赛是什么?在第一次比赛中,哈利面对的是什么龙?本文中,霍格沃茨魔法学校的哪个学生被伏地魔杀死了?

讯飞星火

商汤商量

十几秒种的时间里,两大模型快速解读了上传的文档,并对提出的问题做出了基本令人满意的回答,这一点,令人叹服。不过,在解答哈利第一次比赛时所面对的火龙种类时,商汤商量出现失误,认为是匈牙利角尾龙(其实是匈牙利树蜂),未免美中不足。讯飞星火虽然表述不如商汤商量详细,但答对了全部问题。

这一部分,讯飞星火10分,商汤商量8分。

测试到这里,我们不妨说一下,在支持上传的文本文件上,讯飞星火支持格式式包括pdf、doc、docx、txt和md,一次最多可上传100个文件,单个文件不超过100MB。

商汤商量支持pdf、doc、docx、epub、txt和md文件,一次最多上传10个文件,单个文件的大小不超过10MB。

不过在测试的过程中我们发现,商汤商量支持的txt文件仅限于UTF-8编码格式,如果不是,需要用户自行转换,使用起来比较麻烦。

试题2:上传《西游记》.pdf,文件大小4.18MB,然后提出下列问题:孙悟空的授业师傅是谁?天下四大洲分别是什么?唐僧分别在哪些地方收了三个徒弟和白龙马?列举四个唐僧师徒西行路过的国名?列举师徒四人遇到过的妖怪,四个即可。

商汤商量

可能由于文件太大,或文本中的内容太繁复,商汤商量在文件上传完成后显示“解析失败”,试了几次都是如此。讯飞星火的表现非常惊艳,不仅正确回答了所有问题,而且很懂营销,在列举唐僧师徒取经时遇到的四个妖怪时,白送一个,答出五个。

此轮较量,讯飞星火得10分,商汤商量0分。

小结:

经过五大项目评测,讯飞星火和商汤商量两大模型得分如下:

通过该得分,我们发现在语言理解方面,商汤商量和讯飞星火的差别不是很大,这也从侧面说明,随着各大模型企业集体发力,国内大模型的性能正在呈现出日新月异态势,性能突飞猛进。

0 阅读:37

聚焦科技信息

简介:每天定时更新,喜欢的记得关注!