全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
通义千问-Audio-Turbo-2024-08-07
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。

通义千问-Audio-Turbo-2024-12-04
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。

通义千问-Audio-Turbo-Latest
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型是动态更新版本,模型更新不会提前通知。

通义千问-Audio-Turbo
音频理解
8K

通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。

深度文本重排序
排序模型
30K

gte-rerank-v2是通义实验室研发的多语言文本统一排序模型,面向全球多个主流语种,提供高水平的文本排序服务。通常用于语义检索、RAG等场景,可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (documents),模型会根据与查询的语义相关性从高到低对候选文本进行排序。

通义千问-QwQ-32B-Preview
文本生成
33K

QwQ模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。

通义千问-QwQ-32B
推理模型
131K

基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。

通义千问-QVQ-72B-Preview
图片理解
33K

通义千问-QVQ-72B-Preview是由 Qwen 团队开发的一个实验性研究模型,专注于提升视觉推理能力。通义千问-QVQ-72B-Preview模型在基准测试中取得了优异的表现,在 MMMU 上达到了70.3%,展示了 QVQ 在多学科理解和推理任务上的强大能力,MathVista 和 MathVision 的提升凸显了模型在数学推理任务上的进步。与 Qwen2-VL-72B 相比,QVQ 验证了思维链有助于模型提升视觉推理能力,尤其是需要深度思考和推理的数学领力。

通义千问2.5-Omni-7B
全模态
33K

基于Qwen2.5训练的全新多模态理解生成大模型,支持文本, 图像,语音,视频输入理解和混合输入理解,具备文本和语音同时流式生成能力,多模态内容理解速度显著提升,提供了4种自然对话音色。

通义千问2.5-14B-1M
文本生成
1024K

Qwen2.5系列14B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。 上下文长度支持1M Token。

通义千问2.5-7B-1M
文本生成
1024K

Qwen2.5系列7B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。 上下文支持1M Token。

通义千问2.5-VL-3B
图片理解
131K

指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为3B版本,适合移动端使用。

通义千问2.5-VL-7B
图片理解
131K

指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为7B版本,计算量与性能相对平衡。

通义千问2.5-VL-72B
图片理解
131K

指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。

AI试衣-基础版
图片生成

aitryon是一款性能出众的虚拟试衣图片生成模型,可基于服饰平拍图片以及人物正面全身照,输出服饰的人物试衣效果图片。aitryon模型可在较短时间内生成试衣图片,适用于对时效性要求较高的场景。

人工导购
咨询服务