bitsandbytes LLM量化指南:8位/4位模型压缩,内存减少75%,精度损失<1% | SkillsMD