通用大模型如何经过“精调”,解决具体场景中的用户痛点?特殊场景下,如何让AIAgent走出“胡说八道”的“AI幻觉”?日前,夸克基于阿里通义千问,发布国内首个高考志愿填报开发的大模型。
今年以来,伴随垂类大模型商业化落地加速,模型“精调”成为生态中重要一环。日前,上证报记者采访夸克相关技术团队,了解垂类大模型“精调”背后的奥秘。
对标专家,训练模型“精调”
6月12日,阿里夸克发布国内首个为高考志愿填报场景开发的高考志愿大模型,并同步上线“高考深度搜索”“志愿报告”“智能选志愿”三大核心功能。
据了解,为了适应高考志愿选择的要求,此次开发的大模型在阿里通义千问基础上,团队对标行业专家,进行了模型训练的“精调”。从通用大模型到产品级的垂类Agent,模型如何实现应用级落地转化?
“高考志愿选择是一个很特殊的场景。”夸克算法负责人蒋冠军表示:“一方面它的严肃性要求推理过程中不能出现‘幻觉’;另一方面,志愿填报并非简单数据整理,它逻辑链环环相扣,且最终需要针对性给出建议。”
数据,自然是垂类模型训练的第一要素。据夸克产品经理郏海峰介绍,为此夸克专门搭建了一套实时更新且结构严谨的高考知识库。涵盖全国2900多所高校、近1600个本科专业。并且,在整个推理过程中所有数据需反复交叉印证比对。
针对性的指令微调,则是垂类模型“精调”的关键。据蒋冠军介绍,为此团队邀请了数百位专家,最终形成了一套“一边创造一边监督”的独特的生成机制,他将之概括为,“高维约束+智能推理+人机协作”的决策系统。
据了解,团队为此将数万条人类专家过往决策进行“蒸馏”,从中梳理出“推理链”,将之变为微调指令,融入大模型监督机制中。“就好像有个裁判员站在旁边,随时关注大模型的一举一动。”蒋冠军说道。
参与模型“精调”的志愿填报专家任老师观察到一个有趣的细节:“尽管模型提供了12个信息采集点,但很多高中毕业的同学对未来是没有那么多想法的,包括喜欢什么专业,想去哪个城市等。”而这也造就了模型内置的一系列隐形逻辑条件。最终在反复调试中,团队找到模型生成与专家判断的逻辑一致性。
这也自然增加了算力消耗,此次夸克的发布会上,郏海峰表示,为了应对即将到来的用户高峰,夸克将算力投放提升到此前的100倍。
“应该说,通过一系列严格的逻辑指令引导,在最终志愿结果呈现的那部分,大模型是不会出现‘幻觉’的。也就是说给到的院校专业等情况都真实存在,因为在最终环节我们还增加了一轮历史数据校对。”蒋冠军说道。
Agent产品加速落地
蒋冠军透露,去年夸克团队服务了超过3000万的考生和家长等用户,累计服务超过1.2亿。其中,有50%的用户是三线城市以下的考生。
提及今年最大的创新,在他看来莫过于采用了Agent这一形式。“我们能提供的不再仅仅是公开资料,而是专家级的建议,这对更多普通家庭的考生而言意义重大。”
选择能动性更强的Agent也折射出如今行业发展的趋势。事实上,今年被业内普遍视为Agent元年。OpenAI、谷歌、微软等海外巨头动作频频,国内的字节跳动、阿里、腾讯等大厂亦不甘示弱,凭借本土化场景加速追赶。
“从去年开始,我们就感受到,大模型SOTA(stateoftheart当前最佳)的技术红利变得越来越短暂,可能OpneAI推出一个新的模型,几天之内其他厂商就能跟上。”昆仑万维董事长此前接受采访时表示,下一阶段商业模式的创新者或许才能成为真正的赢家。此前,天风证券全球科技首席分析师孔蓉也认为,相较于基础模型考验的“工程力”,Agent更比拼的是厂商之间的“产品力”。
除了此次阿里夸克在高考志愿领域的小试牛刀外,今年以来Agent产品不胜枚举。今年4月,字节跳动启动“扣子空间”产品内测;同月,百度发布心响App,是首个移动端的通用超级智能体App。5月22日,昆仑万维发布天工超级智能体SkyworkSuperAgents。5月30日,阿里巴巴开源了创新自主搜索AIAgent——WebAgent。
麦肯锡报告显示,2025年全球AIGC技术渗透率将突破40%。有市场调研机构预计,AIAgent的市场规模将从2024年的51亿美元增长到2030年的471亿美元(约5年增长420亿美元),2024年至2030年的复合年增长率为44.8%。