TRL 强化学习微调指南:使用 SFT、DPO、PPO 对齐语言模型与人类偏好 | SkillsMD