全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
通用文本向量-async-v2
向量模型

通用文本向量的批处理接口,通过这个接口客户可以以文本方式一次性的提交大批量的向量计算请求,在系统完成所有的计算之后,大模型服务平台会将结果信息存储在结果文件中供客户下载解析。

语音合成CosyVoice大模型
语音合成

CosyVoice 是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。

语音生成cosyvoice-v2大模型
语音合成

cosyvoice-V2是通义实验室依托大规模预训练语言模型,在深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。

灵动人像LivePortrait-detect
视频生成

LivePortrait-detect是辅助LivePortrait的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

灵动人像LivePortrait
视频生成

LivePortrait是一款视频生成模型,可基于人物图片生成轻量化的人物肖像动态视频。

悦动人像EMO-detect
视频生成

EMO-Detect是辅助EMO的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

视频风格重绘
视频生成

视频风格重绘可以将输入的视频帧序列进行多种风格化的重绘/生成,使新视频画面在兼顾原始人物和物体相貌的同时,带来不同风格的绘画效果。当前支持预置重绘风格包括日式漫画、美式漫画、清新漫画、3D卡通、国风卡通。

悦动人像EMO
视频生成

EMO是一款视频生成模型,可基于人物图片生成高质量的人物肖像动态视频。

声动人像VideoRetalk
视频生成

VideoRetalk是一个人物视频生成模型,可基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的新视频。

舞动人像AnimateAnyone-detect
视频生成

AnimateAnyone-detect是辅助AnimateAnyone的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

声音复刻CosyVoice大模型
语音合成

声音复刻Cosyvoice大模型,依托先进的大模型技术进行特征提取,从而完成声音的复刻,且无需训练过程。仅需提供时长较短的音频,即可迅速生成高度相似且听感自然的定制声音。

舞动人像AnimateAnyone-template
视频生成

AnimateAnyone-Template是辅助AnimateAnyone的动作模板生成模型,可基于视频提取人物动作并制作模板。

通义千问-Plus-Character
文本生成
33K

通义千问系列角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。

语音识别热词
语音识别

热词是指用户可以预先定义的一组特定词汇或短语,这些词汇或短语在识别、翻译过程中会被赋予更高的优先级。针对您的特定业务领域,如果有部分词汇的语音识别、翻译效果不够好,可以将这些关键词或短语添加为热词进行优先识别或翻译,从而提升识别、翻译效果。

舞动人像AnimateAnyone
视频生成

AnimateAnyone是一款视频生成模型,可基于人物图片和动作模板生成人物全身动作视频。

人工导购
咨询服务