大模型列表 - 企数仓

热门搜索：数字员工数字孪生数字化转型

关注公众号

模型分类

全部

多模态

文本

图片

视频

语音

推理模型

排序模型

向量模型

行业模型

其他

上下文

全部

<=8k

<=32k

<=64k

<=128k

>128k

热门模型

全部

DeepSeek

GPT

Llama

通义千问

GLM

语音识别

多语言语音转写及翻译的多模态大模型。本模型支持60秒以内的实时语音识别，适用于语音搜索、设备指令等场景。提供10个混合语种的高准确率识别服务，同时支持中英日韩互译，以其他6个语种翻译成中文或英文。

查看详情

语音识别

Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。Paraformer中文语音识别模型，支持8kHz电话语音识别。

查看详情

语音识别

推荐使用 Paraformer最新实时语音识别模型，支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持8kHz电话客服等场景下的实时语音识别。支持的语言包括：中文（含粤语等各种方言）、英文、日语、韩语。注：paraformer-realtime-v2暂不支持热词。

查看详情

视频生成

表情包Emoji-Detect是辅助表情包Emoji生成的图像检测模型，用于检测图片中的人物形象是否符合视频生成要求。

查看详情

图片生成

通义万相-文本生成图像大模型，支持中英文双语输入，重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通，本模型为通义万相的2024年5月21号的历史快照。

查看详情

图片生成

通义万相-文本生成图像大模型，支持中英文双语输入，重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通

查看详情

视频生成

表情包emoji是一款人脸动效视频生成模型，可基于人脸图片和预设的人脸动态模板，生成人脸动效视频。

查看详情

文本生成

32K

通义千问1.5对外开源的110B规模参数量是经过人类指令对齐的chat模型

查看详情

文本生成

131K

快速对文档进行精准信息抽取，打标分类，内容审核及摘要总结。

查看详情

文本生成

1024K

通义千问系列上下文窗口最长，能力均衡且成本较低的模型，适合长文本分析、信息抽取、总结摘要和分类打标等任务。

查看详情

文本生成

1024K

通义千问系列上下文窗口最长，能力均衡且成本较低的模型，适合长文本分析、信息抽取、总结摘要和分类打标等任务。

查看详情

文本生成

1024K

Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型，支持中文、英文等不同语言输入，支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务，可支持文本文件（ TXT、DOCX、PDF、XLSX、EPUB、MOBI、MD、CSV）和图片文件（BMP、PNG、JPG/JPEG、GIF 以及PDF扫描件）的解析和对话。说明：通过HTTP直接提交请求，支持1M tokens长度，超过此长度建议通过文件方式提交。

查看详情