QwQ 是 Qwen 系列的推理模型,相比传统指令调优模型,具备思考和推理能力的 QwQ 在下游任务尤其是难题上的表现可大幅提升。QwQ-32B 是中型推理模型,能够与 DeepSeek-R1、o1-mini 等最先进的推理模型取得竞争性的性能。
QwQ
QwQ-32B 经过一系列基准测试,旨在评估其数学推理、编码能力和一般解决问题的能力。以下结果突出了 QwQ-32B 与其他领先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1)相比的性能。
- {
- "repeat_penalty": 1,
- "stop": [
- "<|im_start|>",
- "<|im_end|>"
- ],
- "temperature": 0.6,
- "top_k": 40,
- "top_p": 0.95
- }
阿里 AI 团队的研究探索了强化学习 (RL) 的可扩展性及其对增强大型语言模型智能的影响。推出的 QwQ-32B,是一个拥有 320
亿个参数的模型,其性能可与拥有 6710
亿个参数(其中 370 亿个已激活)的 DeepSeek-R1 相媲美。这一非凡成果凸显了 RL 在应用于基于广泛世界知识进行预训练的稳健基础模型时的有效性。此外,阿里 AI 团队将与代理相关的功能集成到推理模型中,使其能够在利用工具的同时进行批判性思考,并根据环境反馈调整其推理。这些进步不仅展示了 RL 的变革潜力,而且为追求通用人工智能的进一步创新铺平了道路。
QwQ-32B 在 Apache 2.0 许可下在 Hugging Face 和 ModelScope 中是开放权重的,可通过 Qwen Chat 访问。
QwQ
QwQ 标志着 Qwen 在扩展强化学习 (RL) 以增强推理能力方面迈出了第一步。通过这一历程,不仅见证了扩展 RL 的巨大潜力,还认识到了预训练语言模型中尚未开发的可能性。在阿里致力于开发下一代 Qwen 的过程中,将更强大的基础模型与由扩展计算资源驱动的 RL 相结合,将推动阿里更接近实现通用人工智能 AGI。此外,阿里 AI 团队,正在积极探索将代理与 RL 集成以实现长远推理,旨在通过推理时间扩展来解锁更高的智能。
以下是一个简短的 Python 示例,演示 Python 如何通过 Hugging Face Transformers 和阿里云 DashScope API,使用 QwQ-32B:
- from transformers import AutoModelForCausalLM, AutoTokenizer
- model_name = "Qwen/QwQ-32B"
- model = AutoModelForCausalLM.from_pretrained(
- model_name,
- torch_dtype="auto",
- device_map="auto"
- )
- tokenizer = AutoTokenizer.from_pretrained(model_name)
- prompt = "How many r's are in the word \"strawberry\""
- messages = [
- {"role": "user", "content": prompt}
- ]
- text = tokenizer.apply_chat_template(
- messages,
- tokenize=False,
- add_generation_prompt=True
- )
- model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
- generated_ids = model.generate(
- **model_inputs,
- max_new_tokens=32768
- )
- generated_ids = [
- output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
- ]
- response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
- print(response)