北京时间3月6日凌晨,通义千问在官方公号上发文称,推出最新的推理模型 qwq-32b。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的 deepseek-r1媲美。
通义千问表示,强化学习可以显著提高模型的推理能力。例如,deepseek-r1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。而qwq-32b突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。
其在文章中展示了在一系列基准测试中与deepseek-r1、o1-mini等模型的功能对比,如在测试数学能力的 aime24 评测集上,以及评估代码能力的livecodebench 中,千问 qwq-32b 表现与deepseek-r1相当,胜于 o1-mini 及相同尺寸的r1 蒸馏模型。
目前,qwq-32b 已在 hugging face 和 modelscope 开源,并采用了 apache 2.0 开源协议。