llama 4 AI Models
Llama 4 模型系列是原生多模态 AI 模型,能够提供文本和多模态体验。这两个模型采用混合专家 MoE 架构,并支持原生多模态(图像输入)。
llama4 预期用途:
Llama 4 旨在用于多种语言的商业和研究用途。指令调优模型适用于类似助手的聊天和视觉推理任务,而预训练模型则可用于自然语言生成。在视觉领域,Llama 4 模型也针对视觉识别、图像推理、字幕以及回答关于图像的一般问题进行了优化。Llama 4 模型集还支持利用其模型的输出来改进其他模型,包括合成数据生成和提炼。Llama 4 社区许可证允许使用这些用例。
Llama 4 已针对除 12 种支持语言之外的更多语言进行训练(预训练共包含 200 种语言)。开发者可以针对除 12 种支持语言之外的其他语言对 Llama 4 模型进行微调,前提是他们遵守 Llama 4 社区许可证和可接受使用政策。开发者有责任确保以安全且负责任的方式使用 Llama 4 支持其他语言。
Llama 4 已通过最多 5 张输入图像的测试,可理解图像。如果需要利用更多图像理解功能,开发者有责任确保其部署能够降低风险,并应根据其特定应用进行额外的测试和调整。
Category | Benchmark | # Shots | Metric | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
Image Reasoning | MMMU | 0 | accuracy | No multimodal support | 69.4 | 73.4 | |
MMMU Pro^ | 0 | accuracy | 52.2 | 59.6 | |||
MathVista | 0 | accuracy | 70.7 | 73.7 | |||
Image Understanding | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (test) | 0 | anls | 94.4 | 94.4 | |||
Code | LiveCodeBench (10/01/2024-02/01/2025) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
Reasoning & Knowledge | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | accuracy | 50.5 | 49.0 | 57.2 | 69.8 | |
Multilingual | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
Long Context | MTOB (half book) eng->kgv/kgv->eng | - | chrF | Context window is 128K | 42.2 / 36.6 | 54.0 / 46.4 | |
MTOB (full book) eng->kgv/kgv->eng | - | chrF | 39.7 / 36.3 | 50.8 / 46.7 |