llama3.2-vision AI Models
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一组经过指令调整的图像推理生成模型,大小为 11B 和 90B(文本 + 图像输入/文本输出)。Llama 3.2-Vision 经过指令调整的模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见的行业基准上优于许多可用的开源和封闭式多模态模型。
支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已针对比这 8 种受支持的语言更广泛的语言集合进行了训练。请注意,对于图像 + 文本应用程序,英语是唯一受支持的语言。
下面示例使用的模型是 llama3.2-vision 模型。
ollama serve ollama pull llama3.2-vision ollama run llama3.2-vision --------------- curl http://localhost:11434/api/chat -d '{ "model": "llama3.2-vision", "messages": [ { "role": "user", "content": "what is in this image?", "images": ["<base64-encoded image data>"] } ] }'
要将 Llama 3.2 Vision 与 Ollama Python 库一起使用:
import ollama response = ollama.chat( model='llama3.2-vision', messages=[{ 'role': 'user', 'content': 'What is in this image?', 'images': ['image.jpg'] }] ) print(response)
Llama 3.2 Vision 与 Ollama JavaScript 库一起使用:
import ollama from 'ollama' const response = await ollama.chat({ model: 'llama3.2-vision', messages: [{ role: 'user', content: 'What is in this image?', images: ['image.jpg'] }] }) console.log(response)