Fireworks AI Models
Firefunction-v2 与 GPT-4o 函数调用能力具有竞争力,在混合公共基准测试中的得分为 0.81
,而 GPT-4o 的得分为 0.80。
Firefunction-v2 针对现实世界场景进行了优化,包括多轮对话、指令跟踪和并行函数调用。它保留了 Llama 3 的多轮指令能力(在 MT 工作台上为 0.84 vs 0.89),同时在函数调用任务上始终胜过 Llama 3(在 Nexus 并行多功能评估上为 0.51 vs 0.30)
下面示例使用的模型是 firefunction-v2 模型。
ollama serve ollama run firefunction-v2
Firefunction v1 | Firefunction v2 | Llama 3 70b Instruct | GPT-4o | |
---|---|---|---|---|
Gorilla simple | 0.91 | 0.94 | 0.925 | 0.88 |
Gorilla multiple_function | 0.92 | 0.91 | 0.86 | 0.91 |
Gorilla parallel_function | 0 | 0.89 | 0.86 | 0.89 |
Gorilla parallel_multiple_function | 0 | 0.79 | 0.62 | 0.72 |
Nexus parallel | 0.38 | 0.51 | 0.30 | 0.47 |
Mtbench (multi turn instruction following) | 0.73 | 0.84 | 0.89 | 0.93 |
Average | 0.49 | 0.81 | 0.74 | 0.80 |