GPTQ量化技术详解:4位大模型压缩,GPU内存节省4倍,推理速度提升3-4倍 | SkillsMD