本模型为qwen-vl-plus的2025年05月07日快照版本。基于qwen2.5训练,相较上一版模型在数学能力、推理能力、安防/个人摄像头场景识别方面有所提升。
本模型为qwen-vl-plus的2025年07月10日快照版本。大幅提升在IPC领域的视觉理解能力,万物识别效果提升、幻觉减少;同时在通用能力上接近Qwen2.5-VL-32B水平。
本模型为qwen-vl-plus的2025年08月15日快照版本。在通用能力上接近Qwen2.5-VL-32B水平;在万物识别和人物识别效果上有提升、在RealWorld场景下的识别准确率提升,幻觉减少。
通义千问大规模视觉语言模型。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。本模型是动态更新版本,模型更新不会提前通知。
通义千问VL-Plus(qwen-vl-plus),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。
通义千问VL-Max-0809(qwen-vl-max-0809),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能,本次更新上下文支持32k,增强图像理解和视觉推理能力,可以更好地识别图片中的多语言文字和手写体的文字,并集成视觉agent能力,本模型为2024年8月9日的快照版本,期维护到下个快照版本发布时间(待定)后一个月。
通义千问VL-Max-1230(qwen-vl-max-1230),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能,本模型为2024年12月30日的快照版本。
通义千问VL-Max-1119(qwen-vl-max-1119),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能,本模型为2024年11月19日的快照版本。
通义千问VL-Max-1030(qwen-vl-max-1030),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能,本模型为2024年10月30日的快照版本。
通义千问超大规模视觉语言模型。相比Plus,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。本模型是动态更新版本,模型更新不会提前通知。
通义千问VL-Max-2025-04-02(qwen-vl-max-2025-04-02),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能,本模型为2025年04月02日的快照版本。
通义千问VL-Max-2025-01-25(qwen-vl-max-2025-01-25),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能,本模型为2025年01月25日的快照版本。
通义千问VL-Max(qwen-vl-max),即通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。
关注公众号
立刻获取最新消息及人工咨询