全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
通义千问2.5-14B
文本生成
131K

Qwen2.5系列14B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。

通义千问2.5-32B
文本生成
131K

Qwen2.5系列32B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。

通义千问2.5-72B
文本生成
131K

Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。

通义千问2-VL-7B
图片理解
32K

通义千问2-VL-7B,扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体。在广泛的视觉任务中提供卓越性能。

通义千问2-VL-2B
图片理解
32K

通义千问2-VL-2B,扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体。在广泛的视觉任务中提供卓越性能。

通义千问2-VL-72B
图片理解
33K

通义千问2-VL-72B,扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体。在广泛的视觉任务中提供卓越性能。

通义千问VL-OCR-2024-10-28
图片理解
34K

通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。本模型为2024年10月28日的快照版本。

通义千问VL-OCR-2025-04-13
图片理解
34K

通义千问VL-OCR(qwen-vl-ocr-2025-04-13),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。模型内置六种识别任务分别是:通用识别、文档解析、表格解析、信息抽取、多语言识别、公式识别。本模型为2025年04月13日的快照版本。

通义千问VL-OCR-Latest
图片理解
34K

通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。

通义千问VL-OCR
图片理解
34K

通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。

通义千问ASR-2024-12-04
语音识别
8K

基于Qwen-Audio的端到端语音识别大模型,支持3分钟以内的音频识别,目前主要支持中英文识别。本模型为2024年12月04日快照版本。

通义千问ASR-Latest
语音识别
8K

基于Qwen-Audio的端到端语音识别大模型,支持3分钟以内的音频识别,目前主要支持中英文识别。本模型是动态更新版本,模型更新不会提前通知。

通义千问ASR
语音识别
8K

基于Qwen-Audio的端到端语音识别大模型,支持3分钟以内的音频识别,目前主要支持中英文识别。

通用多模态向量
向量模型

通义实验室基于预训练多模态大模型构建的多模态向量模型。该模型根据用户的输入生成高维连续向量,这些输入可以是文本、图片或视频。多模态向量在可应用于图片搜索、文搜图、视频搜索、图片分类和视频内容审核等下游任务中。

通义千问-Audio-Turbo-2024-08-07
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。

人工导购
咨询服务