QwQ

显示行号 | 选择喜欢的代码风格

QwQ 是 Qwen 系列的推理模型。扩展强化学习 RL - Scaling Reinforcement Learning 有潜力提升模型性能，超越传统的预训练和后训练方法。最近的研究表明，RL 可以显著提高模型的推理能力。例如，DeepSeek R1 通过整合冷启动数据和多阶段训练实现了最先进的性能，实现了深度思考和复杂推理。

QwQ 参数量

tools 32b

QwQ 模型介绍

QwQ 是 Qwen 系列的推理模型，相比传统指令调优模型，具备思考和推理能力的 QwQ 在下游任务尤其是难题上的表现可大幅提升。QwQ-32B 是中型推理模型，能够与 DeepSeek-R1、o1-mini 等最先进的推理模型取得竞争性的性能。

QwQ

QwQ-32B 经过一系列基准测试，旨在评估其数学推理、编码能力和一般解决问题的能力。以下结果突出了 QwQ-32B 与其他领先模型（包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1）相比的性能。

QwQ 模型参数

{
    "repeat_penalty": 1,
    "stop": [
        "<|im_start|>",
        "<|im_end|>"
    ],
    "temperature": 0.6,
    "top_k": 40,
    "top_p": 0.95
}

阿里 AI 团队的研究探索了强化学习 (RL) 的可扩展性及其对增强大型语言模型智能的影响。推出的 QwQ-32B，是一个拥有 320 亿个参数的模型，其性能可与拥有 6710 亿个参数（其中 370 亿个已激活）的 DeepSeek-R1 相媲美。这一非凡成果凸显了 RL 在应用于基于广泛世界知识进行预训练的稳健基础模型时的有效性。此外，阿里 AI 团队将与代理相关的功能集成到推理模型中，使其能够在利用工具的同时进行批判性思考，并根据环境反馈调整其推理。这些进步不仅展示了 RL 的变革潜力，而且为追求通用人工智能的进一步创新铺平了道路。

QwQ-32B 在 Apache 2.0 许可下在 Hugging Face 和 ModelScope 中是开放权重的，可通过 Qwen Chat 访问。

QwQ 性能表现

QwQ

QwQ 未来路线

QwQ 标志着 Qwen 在扩展强化学习 (RL) 以增强推理能力方面迈出了第一步。通过这一历程，不仅见证了扩展 RL 的巨大潜力，还认识到了预训练语言模型中尚未开发的可能性。在阿里致力于开发下一代 Qwen 的过程中，将更强大的基础模型与由扩展计算资源驱动的 RL 相结合，将推动阿里更接近实现通用人工智能 AGI。此外，阿里 AI 团队，正在积极探索将代理与 RL 集成以实现长远推理，旨在通过推理时间扩展来解锁更高的智能。

如何使用 QwQ-32B

以下是一个简短的 Python 示例，演示 Python 如何通过 Hugging Face Transformers 和阿里云 DashScope API，使用 QwQ-32B：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

QwQ