如何训练大语言模型omkaark.com/posts/llm-1b-1.html

蚁工厂 2025-11-12 09:31:51

如何训练大语言模型omkaark.com/posts/llm-1b-1.html这篇博文记录了作者构建一个领域特定模型的过程,重点是设置基础的预训练基础设施并训练一个类似Llama 3风格的1B模型。训练用的8×H100的GPU。作者计划逐步改进训练基础设施,包括培养自己的token集合,并进行架构优化以支持推理能力。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注