全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
通义千问VL-OCR-Latest
图片理解
34K

通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。

通义千问VL-OCR
图片理解
34K

通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。

通义千问ASR-2024-12-04
语音识别
8K

基于Qwen-Audio的端到端语音识别大模型,支持3分钟以内的音频识别,目前主要支持中英文识别。本模型为2024年12月04日快照版本。

通义千问ASR-Latest
语音识别
8K

基于Qwen-Audio的端到端语音识别大模型,支持3分钟以内的音频识别,目前主要支持中英文识别。本模型是动态更新版本,模型更新不会提前通知。

通义千问ASR
语音识别
8K

基于Qwen-Audio的端到端语音识别大模型,支持3分钟以内的音频识别,目前主要支持中英文识别。

通用多模态向量
向量模型

通义实验室基于预训练多模态大模型构建的多模态向量模型。该模型根据用户的输入生成高维连续向量,这些输入可以是文本、图片或视频。多模态向量在可应用于图片搜索、文搜图、视频搜索、图片分类和视频内容审核等下游任务中。

通义千问-Audio-Turbo-2024-08-07
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。

通义千问-Audio-Turbo-2024-12-04
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。

通义千问-Audio-Turbo-Latest
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型是动态更新版本,模型更新不会提前通知。

通义千问-Audio-Turbo
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。

深度文本重排序
排序模型
30K

gte-rerank-v2是通义实验室研发的多语言文本统一排序模型,面向全球多个主流语种,提供高水平的文本排序服务。通常用于语义检索、RAG等场景,可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (documents),模型会根据与查询的语义相关性从高到低对候选文本进行排序。

通义千问-QwQ-32B-Preview
文本生成
33K

QwQ模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。

通义千问-QwQ-32B
推理模型
131K

基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。

通义千问-QVQ-72B-Preview
图片理解
33K

通义千问-QVQ-72B-Preview是由 Qwen 团队开发的一个实验性研究模型,专注于提升视觉推理能力。通义千问-QVQ-72B-Preview模型在基准测试中取得了优异的表现,在 MMMU 上达到了70.3%,展示了 QVQ 在多学科理解和推理任务上的强大能力,MathVista 和 MathVision 的提升凸显了模型在数学推理任务上的进步。与 Qwen2-VL-72B 相比,QVQ 验证了思维链有助于模型提升视觉推理能力,尤其是需要深度思考和推理的数学领力。

通义千问2.5-Omni-7B
全模态
33K

基于Qwen2.5训练的全新多模态理解生成大模型,支持文本, 图像,语音,视频输入理解和混合输入理解,具备文本和语音同时流式生成能力,多模态内容理解速度显著提升,提供了4种自然对话音色。

人工导购
咨询服务