SimPO 简单偏好优化:无需参考模型的AI对齐方法,性能优于DPO,快速上手指南 | SkillsMD