DeepSeek又整新活了!简而言之就是增加了Engram条件记忆机制,给MoE模型提速:把固定知识存成表省算力,训练量减18%还反超同参数模型,推理吞吐几乎没降。论文一作是北大在读博士,还在DeepSeek干活,新人这是挑大梁了啊DeepSeek又开源了


DeepSeek又整新活了!简而言之就是增加了Engram条件记忆机制,给MoE模型提速:把固定知识存成表省算力,训练量减18%还反超同参数模型,推理吞吐几乎没降。论文一作是北大在读博士,还在DeepSeek干活,新人这是挑大梁了啊DeepSeek又开源了


作者最新文章
热门分类
汽车TOP
汽车最新文章