大模型列表 - 企数仓

热门搜索：数字员工数字孪生数字化转型

关注公众号

模型分类

全部

多模态

文本

图片

视频

语音

推理模型

排序模型

向量模型

行业模型

其他

上下文

全部

<=8k

<=32k

<=64k

<=128k

>128k

热门模型

全部

DeepSeek

GPT

Llama

通义千问

GLM

音频理解

通义千问Audio是阿里云研发的大规模音频语言模型，能够接受多种音频（包括说话人语音、自然声音、音乐、歌声）和文本作为输入，并输出文本。通义千问Audio不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。

查看详情

音频理解

查看详情

音频理解

通义千问Audio是阿里云研发的大规模音频语言模型，能够接受多种音频（包括说话人语音、自然声音、音乐、歌声）和文本作为输入，并输出文本。通义千问Audio不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型是动态更新版本，模型更新不会提前通知。

查看详情

音频理解

通义千问Audio是阿里云研发的大规模音频语言模型，能够接受多种音频（包括说话人语音、自然声音、音乐、歌声）和文本作为输入，并输出文本。通义千问Audio不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。

查看详情

排序模型

30K

gte-rerank-v2是通义实验室研发的多语言文本统一排序模型，面向全球多个主流语种，提供高水平的文本排序服务。通常用于语义检索、RAG等场景，可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (documents)，模型会根据与查询的语义相关性从高到低对候选文本进行排序。

查看详情

文本生成

33K

QwQ模型是由 Qwen 团队开发的实验性研究模型，专注于增强 AI 推理能力。

查看详情

推理模型

131K

基于Qwen2.5-32B模型训练的QwQ推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、livecodebench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平，各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。

查看详情

图片理解

33K

通义千问-QVQ-72B-Preview是由 Qwen 团队开发的一个实验性研究模型，专注于提升视觉推理能力。通义千问-QVQ-72B-Preview模型在基准测试中取得了优异的表现，在 MMMU 上达到了70.3%，展示了 QVQ 在多学科理解和推理任务上的强大能力，MathVista 和 MathVision 的提升凸显了模型在数学推理任务上的进步。与 Qwen2-VL-72B 相比，QVQ 验证了思维链有助于模型提升视觉推理能力，尤其是需要深度思考和推理的数学领力。

查看详情

全模态

33K

基于Qwen2.5训练的全新多模态理解生成大模型，支持文本, 图像，语音，视频输入理解和混合输入理解，具备文本和语音同时流式生成能力，多模态内容理解速度显著提升，提供了4种自然对话音色。

查看详情

文本生成

1024K

Qwen2.5系列14B模型，相较于 Qwen2，Qwen2.5 获得了显著更多的知识，并在编程能力和数学能力方面有了大幅提升。此外，新模型在指令执行、生成长文本、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。上下文长度支持1M Token。

查看详情

文本生成

1024K

Qwen2.5系列7B模型，相较于 Qwen2，Qwen2.5 获得了显著更多的知识，并在编程能力和数学能力方面有了大幅提升。此外，新模型在指令执行、生成长文本、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。上下文支持1M Token。

查看详情

图片理解

131K

指令跟随、数学、解题、代码整体提升，万物识别能力提升，支持多样格式直接精准定位视觉元素，支持对长视频文件（最长10分钟）进行理解和秒级别的事件时刻定位，能理解时间先后和快慢，基于解析和定位能力支持操控OS或Mobile的Agent，关键信息抽取能力和Json格式输出能力强，此版本为3B版本，适合移动端使用。

查看详情

图片理解

131K

指令跟随、数学、解题、代码整体提升，万物识别能力提升，支持多样格式直接精准定位视觉元素，支持对长视频文件（最长10分钟）进行理解和秒级别的事件时刻定位，能理解时间先后和快慢，基于解析和定位能力支持操控OS或Mobile的Agent，关键信息抽取能力和Json格式输出能力强，此版本为7B版本，计算量与性能相对平衡。

查看详情

图片理解

131K

指令跟随、数学、解题、代码整体提升，万物识别能力提升，支持多样格式直接精准定位视觉元素，支持对长视频文件（最长10分钟）进行理解和秒级别的事件时刻定位，能理解时间先后和快慢，基于解析和定位能力支持操控OS或Mobile的Agent，关键信息抽取能力和Json格式输出能力强，此版本为72B版本，本系列能力最强的版本。

查看详情