【】虽然距离春节还有些时日,但国内科技圈的节奏似乎已经提前进入了假期模式,唯独 DeepSeek 是个例外。就在昨天,DeepSeek 毫无预兆地在 GitHub 上开源了新模块 Engram 的相关代码,并发布了一篇题为《Conditional Memory via Scalable Lookup》的论文。更早一点,在元旦当天,他们还甩出了一篇关于模型架构稳定性的《mHC》。 在检索社交媒体信息后发现,DeepSeek近期正在大量招人,放出了多个技术核心岗位招聘,包括深度学习研究员(负责LLM各个方向的前沿探索,如预训练、alignment、codemath、backbone、multimodal等)、深度学习研发工程师(LLM预训练数据/搜索策略相关)、大模型全栈工程师(算法与工程并重,归属于各个前沿探索方向,除了实现还会参与一些环境的部署和搭建)、全栈开发工程师、核心系统研发工程署。且据招聘者表述,校招、社招、实习均开放,另有产品、设计、数据百晓生等岗位开放。Engram的论文中提到了一个细节:这种架构支持“预取-重叠”策略,可以利用CPU内存来存知识,GPU专心算逻辑。这意味着,V4极有可能在保持推理成本低廉的同时,拥有远超当前一代模型的知识容量和长上下文处理能力。这对于目前受困于显存成本的行业来说,可能又是一次降维打击。
【】虽然距离春节还有些时日,但国内科技圈的节奏似乎已经提前进入了假期模式,唯独
绿春共谈汽车啊
2026-01-16 01:08:39
0
阅读:0