同是最新版，讯飞星火和商汤大模型语言理解差异有多大？

科大讯飞星火V3.5春节上新版和商汤商量5.0是近期国内通用人工智能领域发布的两款最新产品，在一定意义上代表着当前国内大模型最高水平和最强悍的能力。

其中讯飞星火V3.5升级版发布于4月26日，各项性能持续提升，同时首发支持长文本、长图文、长语音、多情感超拟人合成和一句话声音复刻等功能。具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力。

通过此次升级，讯飞星火大模型V3.5不仅能够迅速吸收来自不同信息源的大量文本、图形材料和会议记录，还能在各种行业场景下提供专业且确切的解答，从而将大型模型的使用从“偶尔”提升到“常态化”，极大地提高每个人在工作和学习中的效率，助力人们更高效地获取知识，更精准地解决问题。

商汤日日新5.0大模型体系则发布于4月23日，旗下包括商量、秒画、如影、琼宇、格物五大模型基于新体系，也迎来性能大幅提升。分别对应着自然语言交互、AI文生图、数字人、3D大场景重建和3D小物体生成等五大主流AIGC应用。

实际上对于商汤这种推出多款大模型，但每款大模型主要对应某种AIGC的作法，很多人并不理解，因为毕竟在工作、学习和生活中，我们需要用到大模型的多种能力，比如文本生成、图片识读、音视频生成、逻辑推理、多题型步骤级数学能力和多功能多语言代码能力等，如果为了某种能力，需要切换到不同的大模型，不管是否付费，那感觉都很不爽。

或许，这是商汤大模型和讯飞星火等大模型的主要区别，也是讯飞星火大模型最吸引人的亮点之一。讯飞星火是通用的，无论是文本、识图、作图、音视频解读和生成……，都可以在一个输入框中轻松完成。

不过，这都是题外话。本次我们的主要目的，是基于商汤商量大语言模型5.0全新加强的自然语言交互能力，将它和讯飞星火的同样能力进行对比，看看究竟谁更胜一筹，测试的项目是语言理解。

语言理解是大语言模型的基础，关乎到大模型能不能很好的理解使用者指令意图，能不能正确理解文本内容的问题，很难设想，一个连指令和文本内容都理解不了的大模型，能在回复用户提问时有良好表现。

为了尽可能地保证评测结果客观、公正，此次测试我们设计了五个项目：阅读理解；语义理解（主要是复杂语义理解）；文章摘要生成；文本信息提取；长文本支持。

每个项目各设两道试题，每题10分，满分100，最后得分多者胜。

一、阅读理解

试题1：长妈妈曾经讲给我一个故事听：先前，有一个读书人住在古庙里用功，晚间，在院子里纳凉的时候，突然听到有人在叫他。答应着，四面看时，却见一个美女的脸露在墙头上，向他一笑，隐去了。他很高兴；但竟给那走来夜谈的老和尚识破了机关。说他脸上有些妖气，一定遇见“美女蛇”了；这是人首蛇身的怪物，能唤人名，倘一答应，夜间便要来吃这人的肉的。他自然吓得要死，而那老和尚却道无妨，给他一个小盒子，说只要放在枕边，便可高枕而卧。他虽然照样办，却总是睡不着，——当然睡不着的。到半夜，果然来了，沙沙沙！门外象是风雨声。他正抖作一团时，却听得豁的一声，一道金光从枕边飞出，外面便什么声音也没有了，那金光也就飞回来，敛在盒子里。后来呢？后来，老和尚说，这是飞蜈蚣，它能吸蛇的脑髓，美女蛇就被它治死了。

结末的教训是：所以倘有陌生的声音叫你的名字，你万不可答应他。

上文中，谁讲了故事给我听？谁住在古庙里？住在古庙里的人看到的是美女么？谁识破了机关？最后美女蛇是被什么吸了脑髓？

讯飞星火

商汤商量

对于这个问题，讯飞星火和商汤商量都给出了堪称完美的回答，各得10分。

试题2：环滁皆山也。其西南诸峰，林壑尤美，望之蔚然而深秀者，琅琊也。山行六七里，渐闻水声潺潺而泻出于两峰之间者，酿泉也。峰回路转，有亭翼然临于泉上者，醉翁亭也。作亭者谁？山之僧智仙也。名之者谁？太守自谓也。太守与客来饮于此，饮少辄醉，而年又最高，故自号曰醉翁也。醉翁之意不在酒，在乎山水之间也。山水之乐，得之心而寓之酒也。

在山中走多远到酿泉？醉翁亭的建造者是谁？谁为醉翁亭命的名？醉翁是谁？他的酒量大不大？

讯飞星火

商汤商量

这道题的目的是考察两大模型对文言文的理解程度，从答案来看，两者都对，但从详细程度来说，商汤商量为胜。不仅给出了答案，而且给出了作者（欧阳修）简介，利于知识拓展。

该题两大模型均得10分。

二、语义理解

试题1：明明明明明白白白喜欢他，但是明明就是不说。请问，谁喜欢谁？

讯飞星火

商汤商量

放在人类的思维，这是一个很容易理解的问题，白白喜欢明明。但对于大模型来说，这个问题并不简单，它需要切实弄清各词间的关系才能正确回答，从这个意义上来说，讯飞星火表现较好，基本上准确地理解了各词的意思，最后卡在“他”这个人称代词上。在讯飞星火看来，“他”可能是“明明”（人名），也可能是“白白”，也可能是第三个人。实际上，无论是“明明”（人名，这是正确答案），还是“他”（第三者），其实都有道理，即“白白喜欢明明”或“白白喜欢他”，唯独“白白喜欢白白”没道理。

商汤商量则完全没抓住重点，表述混乱，逻辑不清。

鉴于回答质量，这道题讯飞星火得6分，商汤商量0分。

试题2：大爸去二爸家找三爸说四爸偷了五爸放在六爸家柜子里的200元钱。请问谁是小偷？钱本来是谁的？

讯飞星火

商汤商量

两者的回答都正确，各得10分。

三、文章摘要

试题1：请用一句话概括下文内容。

讯飞星火

商汤商量

两大模型概括得都非常到位，得10分。

试题2：根据文章内容写一篇200字总结，文章来自网络，题为《外媒文章：西方正在加速衰落》。

讯飞星火

商汤商量

要求写200字总结，讯飞星火用了263字，商汤商量465字，大大的超标，而且从总结质量看，也是讯飞星火的比较精练，重点内容都概括了，商汤商量的比较散漫。

这部分得分，讯飞星火10分，商汤商量8分。

四、信息提取

试题1：来源于国家统计局网站消息，根据该内容，提取一季度41个工业大类行业的利润数据；一季度采矿业利润情况如何？

讯飞星火

商汤商量

这个测试有个小小的陷阱，即文本内容并没有给出一季度41个工业大类行业的利润数据，只给出了28个，讯飞星火发现并指出了问题，给出了正确答案。商汤商量虽然没指出，但答案同样正确。

这一环节，两大模型均得满分。

试题2：提取下文中的数据生成表格：分行业类别看，新闻信息服务实现营业收入4101亿元，比上年同期增长11.1%；内容创作生产7054亿元，增长12.0%；创意设计服务5219亿元，增长10.4%；文化传播渠道4026亿元，增长6.8%；文化投资运营145亿元，增长10.4%；文化娱乐休闲服务375亿元，增长10.5%；文化辅助生产和中介服务3583亿元，增长7.3%；文化装备生产1378亿元，增长6.0%；文化消费终端生产5175亿元，增长2.7%。

讯飞星火

商汤商量

两大模型轻松、准确地按要求生成表格，各得10分。

五、长文本支持

试题1：上传《哈利波特与火焰杯》txt电子书，大小1MB，约37万字，在两大模型解读后提出下列问题：三强争霸杯是在哪所学校举办的？那些学校参加了比赛？勇士们面对的三项比赛是什么？在第一次比赛中，哈利面对的是什么龙？本文中，霍格沃茨魔法学校的哪个学生被伏地魔杀死了？

讯飞星火

商汤商量

十几秒种的时间里，两大模型快速解读了上传的文档，并对提出的问题做出了基本令人满意的回答，这一点，令人叹服。不过，在解答哈利第一次比赛时所面对的火龙种类时，商汤商量出现失误，认为是匈牙利角尾龙（其实是匈牙利树蜂），未免美中不足。讯飞星火虽然表述不如商汤商量详细，但答对了全部问题。

这一部分，讯飞星火10分，商汤商量8分。

测试到这里，我们不妨说一下，在支持上传的文本文件上，讯飞星火支持格式式包括pdf、doc、docx、txt和md，一次最多可上传100个文件，单个文件不超过100MB。

商汤商量支持pdf、doc、docx、epub、txt和md文件，一次最多上传10个文件，单个文件的大小不超过10MB。

不过在测试的过程中我们发现，商汤商量支持的txt文件仅限于UTF-8编码格式，如果不是，需要用户自行转换，使用起来比较麻烦。

试题2：上传《西游记》.pdf，文件大小4.18MB，然后提出下列问题：孙悟空的授业师傅是谁？天下四大洲分别是什么？唐僧分别在哪些地方收了三个徒弟和白龙马？列举四个唐僧师徒西行路过的国名？列举师徒四人遇到过的妖怪，四个即可。

商汤商量

可能由于文件太大，或文本中的内容太繁复，商汤商量在文件上传完成后显示“解析失败”，试了几次都是如此。讯飞星火的表现非常惊艳，不仅正确回答了所有问题，而且很懂营销，在列举唐僧师徒取经时遇到的四个妖怪时，白送一个，答出五个。

此轮较量，讯飞星火得10分，商汤商量0分。

小结：

经过五大项目评测，讯飞星火和商汤商量两大模型得分如下：

通过该得分，我们发现在语言理解方面，商汤商量和讯飞星火的差别不是很大，这也从侧面说明，随着各大模型企业集体发力，国内大模型的性能正在呈现出日新月异态势，性能突飞猛进。

世良情感网

同是最新版，讯飞星火和商汤大模型语言理解差异有多大？

聚焦科技信息