QwQ

| 选择喜欢的代码风格  

QwQ 参数量


tools 32b
 

QwQ 模型介绍


QwQ 是 Qwen 系列的推理模型,相比传统指令调优模型,具备思考和推理能力的 QwQ 在下游任务尤其是难题上的表现可大幅提升。QwQ-32B 是中型推理模型,能够与 DeepSeek-R1、o1-mini 等最先进的推理模型取得竞争性的性能。


QwQ

QwQ-32B 经过一系列基准测试,旨在评估其数学推理、编码能力和一般解决问题的能力。以下结果突出了 QwQ-32B 与其他领先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1)相比的性能。

 

QwQ 模型参数


{
    "repeat_penalty": 1,
    "stop": [
        "<|im_start|>",
        "<|im_end|>"
    ],
    "temperature": 0.6,
    "top_k": 40,
    "top_p": 0.95
}

阿里 AI 团队的研究探索了强化学习 (RL) 的可扩展性及其对增强大型语言模型智能的影响。推出的 QwQ-32B,是一个拥有 320 亿个参数的模型,其性能可与拥有 6710 亿个参数(其中 370 亿个已激活)的 DeepSeek-R1 相媲美。这一非凡成果凸显了 RL 在应用于基于广泛世界知识进行预训练的稳健基础模型时的有效性。此外,阿里 AI 团队将与代理相关的功能集成到推理模型中,使其能够在利用工具的同时进行批判性思考,并根据环境反馈调整其推理。这些进步不仅展示了 RL 的变革潜力,而且为追求通用人工智能的进一步创新铺平了道路。

QwQ-32B 在 Apache 2.0 许可下在 Hugging Face 和 ModelScope 中是开放权重的,可通过 Qwen Chat 访问。

 

QwQ 性能表现



QwQ

 

QwQ 未来路线


QwQ 标志着 Qwen 在扩展强化学习 (RL) 以增强推理能力方面迈出了第一步。通过这一历程,不仅见证了扩展 RL 的巨大潜力,还认识到了预训练语言模型中尚未开发的可能性。在阿里致力于开发下一代 Qwen 的过程中,将更强大的基础模型与由扩展计算资源驱动的 RL 相结合,将推动阿里更接近实现通用人工智能 AGI。此外,阿里 AI 团队,正在积极探索将代理与 RL 集成以实现长远推理,旨在通过推理时间扩展来解锁更高的智能。

 

如何使用 QwQ-32B


以下是一个简短的 Python 示例,演示 Python 如何通过 Hugging Face Transformers 和阿里云 DashScope API,使用 QwQ-32B

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
 

AI 扩展阅读:




发表评论