qwen2.5vl

| 选择喜欢的代码风格  

qwen2.5vl 参数量


vision 3b 7b 32b 72b
 

qwen2.5vl 模型介绍



qwen2.5vl AI Models

Qwen2.5-VL,是 Qwen 全新的旗舰视觉语言模型,也是相比上一代 Qwen2-VL 有了显著的飞跃。

qwen2.5vl 主要特点包括:

  • 以视觉方式理解事物:Qwen2.5-VL 不仅能够识别花鸟鱼虫等常见物体,还能高效分析图像中的文本、图表、图标、图形和布局。
  • 代理性:Qwen2.5-VL 可直接充当视觉代理,进行推理并动态引导工具,适用于计算机和手机。
  • 支持多种格式的视觉定位:Qwen2.5-VL 可以通过生成边界框或点来精确定位图像中的对象,并提供稳定的 JSON 格式坐标和属性输出。
  • 生成结构化输出:对于发票、表格、表格等扫描件数据,Qwen2.5-VL 支持其内容的结构化输出,有利于金融、商业等领域的应用。

qwen2.5vl 性能:

QWen2.5VL 用 SOTA 模型以及类似模型规模的最佳模型来评估。就旗舰模型 Qwen2.5-VL-72B-Instruct 而言,它在一系列涵盖大学水平问题、数学、文档理解、一般问答、数学和视觉代理等领域和任务的基准测试中取得了具有竞争力的性能。值得注意的是,Qwen2.5-VL 在理解文档和图表方面取得了显著优势,并且无需针对特定任务进行微调即可充当视觉代理。

在较小模型方面,Qwen2.5-VL-7B-Instruct 在多项任务上的表现优于 GPT-4o-mini,而作为边缘 AI 解决方案的 Qwen2.5-VL-3B 甚至优于 Qwen 上一版本 Qwen2-VL 的 7B 模型。

 

AI 扩展阅读:




发表评论