GRPO/RL训练实战指南:使用TRL库进行组相对策略优化,高效微调语言模型 | SkillsMD