全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
声动人像VideoRetalk
视频生成

VideoRetalk是一个人物视频生成模型,可基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的新视频。

舞动人像AnimateAnyone-detect
视频生成

AnimateAnyone-detect是辅助AnimateAnyone的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

声音复刻CosyVoice大模型
语音合成

声音复刻Cosyvoice大模型,依托先进的大模型技术进行特征提取,从而完成声音的复刻,且无需训练过程。仅需提供时长较短的音频,即可迅速生成高度相似且听感自然的定制声音。

舞动人像AnimateAnyone-template
视频生成

AnimateAnyone-Template是辅助AnimateAnyone的动作模板生成模型,可基于视频提取人物动作并制作模板。

通义千问-Plus-Character
文本生成
33K

通义千问系列角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。

语音识别热词
语音识别

热词是指用户可以预先定义的一组特定词汇或短语,这些词汇或短语在识别、翻译过程中会被赋予更高的优先级。针对您的特定业务领域,如果有部分词汇的语音识别、翻译效果不够好,可以将这些关键词或短语添加为热词进行优先识别或翻译,从而提升识别、翻译效果。

舞动人像AnimateAnyone
视频生成

AnimateAnyone是一款视频生成模型,可基于人物图片和动作模板生成人物全身动作视频。

一句话识别及翻译V1.0
语音识别

多语言语音转写及翻译的多模态大模型。本模型支持60秒以内的实时语音识别,适用于语音搜索、设备指令等场景。提供10个混合语种的高准确率识别服务,同时支持中英日韩互译,以其他6个语种翻译成中文或英文。

Paraformer语音识别-8k-v1
语音识别

Paraformer语音识别提供的文件转写API,能够对常见的音频或音视频文件进行语音识别,并将结果返回给调用者。Paraformer中文语音识别模型,支持8kHz电话语音识别。

Paraformer实时语音识别-8k-v2
语音识别

推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持8kHz电话客服等场景下的实时语音识别。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 注:paraformer-realtime-v2暂不支持热词。

表情包Emoji-detect
视频生成

表情包Emoji-Detect是辅助表情包Emoji生成的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

通义万相-文本生成图像-2024-05-21
图片生成

通义万相-文本生成图像大模型,支持中英文双语输入,重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通,本模型为通义万相的2024年5月21号的历史快照。

通义万相-文本生成图像
图片生成

通义万相-文本生成图像大模型,支持中英文双语输入,重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通

表情包Emoji
视频生成

表情包emoji是一款人脸动效视频生成模型,可基于人脸图片和预设的人脸动态模板,生成人脸动效视频。

通义千问1.5-开源版-110B
文本生成
32K

通义千问1.5对外开源的110B规模参数量是经过人类指令对齐的chat模型

人工导购
咨询服务