苹果开源的 L3M(Large Multi-Modal Models)库,重新定义多模态大模型训练的灵活性与可复现性。
• 采用纯配置驱动的训练方式,模型训练仅需一个 YAML 配置文件,极大简化复现实验流程,方便共享与复用。
• 模型结构抽象为 MetaModel,支持预处理器、主干网络、后处理器与头部模块自由组合,模块间共享统一数据字典,执行顺序灵活且变量可跨模块复用。
• 原生支持多种并行训练策略(FSDP2 分布式训练、模型复制、分片、张量与上下文并行),适配多 GPU 环境,实现高效扩展。
• 内置常用基线配置(AIMv1、AIMv2、CLIP、大型语言模型等),覆盖视觉、文本等多模态任务,助力前沿多模态研究。
• 依赖 PyTorch 2.7,结合 Hydra 配置管理,支持快速调试与灵活配置覆盖,训练过程全透明无隐藏代码。
• 需自行准备非HuggingFace数据集及对应数据加载器,官方提供 ImageNet 加载器示例,便于入门。
• 代码结构设计灵感来源 Omnivore,强调模块化与复用,适合科研及工业级多模态模型预训练。
• 论文支撑:包括 ICCV 2025、CVPR 2025、ICML 2024 等顶会口头报告与重点文章,体现先进技术水平。
L3M 以配置为核心,实现大模型训练的极致灵活与透明,适合需要多模态融合与大规模分布式训练的研究者和工程师长期跟进与使用。
详细资料🔗 github.com/apple/ml-l3m
多模态模型 大规模预训练 分布式训练 机器学习 人工智能