全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
一句话识别及翻译V1.0
语音识别

多语言语音转写及翻译的多模态大模型。本模型支持60秒以内的实时语音识别,适用于语音搜索、设备指令等场景。提供10个混合语种的高准确率识别服务,同时支持中英日韩互译,以其他6个语种翻译成中文或英文。

Paraformer语音识别-8k-v1
语音识别

Paraformer语音识别提供的文件转写API,能够对常见的音频或音视频文件进行语音识别,并将结果返回给调用者。Paraformer中文语音识别模型,支持8kHz电话语音识别。

Paraformer实时语音识别-8k-v2
语音识别

推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持8kHz电话客服等场景下的实时语音识别。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 注:paraformer-realtime-v2暂不支持热词。

表情包Emoji-detect
视频生成

表情包Emoji-Detect是辅助表情包Emoji生成的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

通义万相-文本生成图像-2024-05-21
图片生成

通义万相-文本生成图像大模型,支持中英文双语输入,重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通,本模型为通义万相的2024年5月21号的历史快照。

通义万相-文本生成图像
图片生成

通义万相-文本生成图像大模型,支持中英文双语输入,重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通

表情包Emoji
视频生成

表情包emoji是一款人脸动效视频生成模型,可基于人脸图片和预设的人脸动态模板,生成人脸动效视频。

通义千问1.5-开源版-110B
文本生成
32K

通义千问1.5对外开源的110B规模参数量是经过人类指令对齐的chat模型

通义千问-doc-turbo
文本生成
131K

快速对文档进行精准信息抽取,打标分类,内容审核及摘要总结。

Qwen-Long-Latest
文本生成
1024K

通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。

Qwen-Long-2025-01-25
文本生成
1024K

通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。

Qwen-Long
文本生成
1024K

Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型,支持中文、英文等不同语言输入,支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务,可支持文本文件( TXT、DOCX、PDF、XLSX、EPUB、MOBI、MD、CSV)和图片文件(BMP、PNG、JPG/JPEG、GIF 以及PDF扫描件)的解析和对话。说明:通过HTTP直接提交请求,支持1M tokens长度,超过此长度建议通过文件方式提交。

通义千问2-72B
文本生成
131K

通义千问2对外开源的72B规模的模型。

通义千问2-57B
文本生成
66K

通义千问2对外开源的57B规模14B激活参数的MOE模型。

通义千问2-7B
文本生成
131K

通义千问2对外开源的7B规模的模型。

人工导购
咨询服务