MoE
模型,参数大小为 8x7b 和 8x22b。
mixtral Models
Mixtral 大型语言模型 (LLM) 是一组经过预训练的生成式稀疏混合专家模型。
Mistral AI 继续履行其使命,为开发者社区提供最佳开放模型。在 AI 领域取得进展需要采取新的技术转变,而不仅仅是重复使用众所周知的架构和训练范例。最重要的是,它需要让社区从原始模型中受益,以促进新的发明和使用。
该团队自豪地发布了 Mixtral 8x7B
,这是一款具有开放权重的高质量稀疏专家混合模型 SMoE
。根据 Apache 2.0 许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B,推理速度提高了 6 倍。它是具有宽松许可证的最强大的开放权重模型,也是成本/性能权衡方面的最佳模型。特别是,它在大多数标准基准测试中与 GPT3.5 匹敌或优于 GPT3.5。
下面示例使用的模型是 mixtral 模型。
ollama serve ollama run mixtral:8x22b
Mixtral 8x22B 为 AI 社区树立了新的性能和效率标准。它是一种稀疏混合专家 SMoE
模型,仅使用 141B 中的 39B 个活动参数,就其规模而言,具有无与伦比的成本效益。
64K Token
上下文窗口允许从大型文档中精确调用信息