Megatron-Core 大规模 LLM 训练指南:从 2B 到 462B 参数模型并行训练与优化 | SkillsMD