大模型列表 - 企数仓

热门搜索：数字员工数字孪生数字化转型

关注公众号

模型分类

全部

多模态

文本

图片

视频

语音

推理模型

排序模型

向量模型

行业模型

其他

上下文

全部

<=8k

<=32k

<=64k

<=128k

>128k

热门模型

全部

DeepSeek

GPT

Llama

通义千问

GLM

语音合成

Qwen-TTS实时模型是通义实验室通义千问模型中语音合成利器，始终与最新快照版能力相同。具备双向上下文感知能力，可以低延迟高保真完成多音色、方言及长文本的双向流式生成。本模型是动态更新版本，模型更新不会提前通知。

查看详情

语音合成

Qwen-TTS实时模型是通义实验室“qwen系列”模型中的语音合成模型。具备双向上下文感知能力，可以低延迟高保真完成多音色、方言及长文本的双向流式生成。

查看详情

语音合成

通义千问系列首个语音合成模型，支持中文、英文、中英混合输入。自适应根据输入文本调整输出语气，音色真实自然，支持流式输出。本版本是2025年4月10日快照。

查看详情

语音合成

通义千问系列首个语音合成模型，支持中文、英文、中英混合输入。自适应根据输入文本调整输出语气，音色真实自然，支持流式输出。本版本是2025年5月22日快照。

查看详情

语音合成

模型是动态更新版本，等同于最新版本快照模型，模型更新时不会提前通知。

查看详情

语音合成

通义千问系列首个语音合成模型，支持中文、英文、中英混合输入。自适应根据输入文本调整输出语气，音色真实自然，支持流式输出。

查看详情

图片理解

音频理解

32K

通义千问VL-Plus（qwen-vl-plus），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。本模型为qwen-vl-plus的2024年8月9日快照版本。

查看详情

图片理解

音频理解

32K

通义千问VL-Plus（qwen-vl-plus），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。本模型为qwen-vl-plus的2025年01月02日快照版本。

查看详情

图片理解

音频理解

131K

通义千问VL-Plus（qwen-vl-plus），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。本模型为qwen-vl-plus的2025年01月25日快照版本。

查看详情

图片理解

音频理解

131K

本模型为qwen-vl-plus的2025年05月07日快照版本。基于qwen2.5训练，相较上一版模型在数学能力、推理能力、安防/个人摄像头场景识别方面有所提升。

查看详情

图片理解

音频理解

32K

本模型为qwen-vl-plus的2025年07月10日快照版本。大幅提升在IPC领域的视觉理解能力，万物识别效果提升、幻觉减少；同时在通用能力上接近Qwen2.5-VL-32B水平。

查看详情

图片理解

131K

本模型为qwen-vl-plus的2025年08月15日快照版本。在通用能力上接近Qwen2.5-VL-32B水平；在万物识别和人物识别效果上有提升、在RealWorld场景下的识别准确率提升，幻觉减少。

查看详情

图片理解

音频理解

131K

通义千问大规模视觉语言模型。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。本模型是动态更新版本，模型更新不会提前通知。

查看详情

图片理解

131K

通义千问VL-Plus（qwen-vl-plus），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

查看详情

图片理解

音频理解

33K

通义千问VL-Max-0809（qwen-vl-max-0809），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能，本次更新上下文支持32k，增强图像理解和视觉推理能力，可以更好地识别图片中的多语言文字和手写体的文字，并集成视觉agent能力，本模型为2024年8月9日的快照版本，期维护到下个快照版本发布时间（待定）后一个月。

查看详情