BakLLaVA 1 是基于 Mistral 7B 的 LLaVA 1.5 架构增强版。在此第一个版本中,展示了 Mistral 7B 基础在多个基准测试中的表现优于 Llama 2 13B。可以在 BakLLaVA 的存储库上运行 BakLLaVA-1,以便您更轻松地进行微调和推理。Github 地址:https://github.com/SkunkworksAI/BakLLaVA。
注意:BakLLaVA-1 是完全开源的,但使用某些数据进行训练,包括 LLaVA 的语料库,这在商业上是不允许的。我们将在即将发布的版本中修复此问题。
BakLLaVA 2 正在使用一个明显更大(商业上可行)的数据集和一个超越当前 LLaVA 方法的新型架构。BakLLaVA-2 将消除 BakLLaVA-1 的限制。
下面示例使用的模型是 bakllava 模型。
ollama serve ollama run bakllava --------------- >>> What's in this image? /Users/jmorgan/Desktop/smile.png The image features a yellow smiley face, which is likely the central focus of the picture. --------------- curl http://localhost:11434/api/generate -d '{ "model": "bakllava", "prompt":"What is in this picture?", "images": ["iVBORw0KGgoAAAANSUhEUgAAAG0AAABmCAYAAADB...mCC"] }'