SimPO 偏好优化教程:无需参考模型,性能优于 DPO,快速训练 Mistral/Llama 模型 | SkillsMD