[IR]《HierarchicalRetrieval:TheGeometr

爱生活爱珂珂 2025-09-24 06:51:47

[IR]《Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe》C You, R Jayaram, A T Suresh, R Nittka... [Google] (2025)

层级检索的双编码器新突破:几何理论与预训练-微调方案

• 层级检索(HR)针对文档集合的层次结构检索,查询对应的匹配文档及其所有祖先节点,广泛应用于广告关键词匹配等场景。

• 传统双编码器(DE)以欧氏空间嵌入查询与文档,固有的对称距离限制导致远层级文档检索效果急剧下降,称为“远距离丢失”现象。

• 理论证明:只要嵌入维度线性依赖于层级深度且对文档数取对数,存在满足HR条件的非对称双编码器嵌入(定理3.1),保证可行性。

• 实践挑战:直接训练DE在低维下远距离匹配性能不足,简单重采样方法虽改善远距离召回,却严重损害近距离性能。

• 创新方案:提出“预训练-微调”策略,先用常规数据训练DE,再针对远距离匹配数据微调,显著提升远距离召回率而不损失近距离表现。

• 实验验证:在WordNet大规模层级词典和ESCI购物查询数据集上,预训练-微调方案将远距离召回率从19%提升至76%以上,整体召回率大幅提高。

• 方案灵活:无需完整层级图谱,只需利用任务定义或代理指标区分短距离和长距离匹配,易于实际应用。

心得:

1. 层级结构检索本质上要求非对称相似度度量,欧氏空间的对称度量限制了表达能力,设计非对称编码器是关键突破。

2. 维度可控且理论支撑的嵌入构造,为大规模层级检索提供了可行的数学基础,挑战了传统“维度越大越好”的认知。

3. 针对训练数据分布的巧妙利用(预训练-微调)避免了简单重采样的权衡困境,体现了针对性训练对提升模型泛化的巨大潜力。

详细阅读🔗arxiv.org/abs/2509.16411

层级检索双编码器信息检索预训练微调机器学习自然语言处理

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注