大模型新玩法超越RAG和DAPT即插即用大模型小助手一个小解码器让所有模型当上领

量子位看科技 2025-08-18 20:03:08

大模型新玩法超越RAG和DAPT即插即用大模型小助手

一个小解码器让所有模型当上领域专家!华人团队新研究正在引起热议。

他们提出了一种比目前业界主流采用的DAPT(领域自适应预训练)和RAG(检索增强生成)更方便、且成本更低的方法。

- 相比DAPT,不需要昂贵的全参数训练;

- 相比RAG,不依赖昂贵的检索。

而且实验结果显示,其方法能够显著提升Qwen和Llama等模型在三个专门领域_(生物医学、金融、法律)_的效果,并使困惑度平均降低6.17分_(相当于预测下一个词的正确率提升了约20%~25%)。

不卖关子了,原来这是来自上海交大、上海AI Lab等机构的研究人员提出的一个名为“Memory Decoder”的预训练记忆模块——

通过使用一个小型的前置解码器(former decoder),能够学习模仿外部非参数检索器的行为。

翻译成大白话就是,Memory Decoder就像给大模型加了一个“领域知识插件”,既高效又灵活,为大模型适应特定领域提供了一种新方法。

划重点,即插即用、无需改变原始模型参数、可以和任何共享相同分词器的大语言模型集成。

对于这一新研究,有网友激动表示,这改变了游戏规则。下面详细来看论文内容:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注