GRPO强化学习训练指南:使用TRL库微调语言模型,优化输出格式与推理能力 | SkillsMD