全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
Paraformer实时语音识别-v2
语音识别

推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 可支持热词。

Paraformer语音识别-v2
语音识别

推荐使用 Paraformer最新语音识别模型,支持多个语种的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果,支持任意采样率。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。可支持热词。

StableDiffusion文生图模型-3.5-large
图片生成

stable-diffusion-3.5-large是一个具有8亿参数的多模态扩散变压器(MMDiT)文本到图像生成模型,具备卓越的图像质量和提示词匹配度,支持生成100万像素的高分辨率图像,且能够在普通消费级硬件上高效运行。

StableDiffusion文生图模型-3.5-large-turbo
图片生成

stable-diffusion-3.5-large-turbo是在stable-diffusion-3.5-large的基础上采用对抗性扩散蒸馏(ADD)技术的模型,具备更快的速度。

通用文本向量-v1
向量模型

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

通用文本向量-v2
向量模型

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

通用文本向量-async-v1
向量模型

通用文本向量的批处理接口,通过这个接口客户可以以文本方式一次性的提交大批量的向量计算请求,在系统完成所有的计算之后,大模型服务平台会将结果信息存储在结果文件中供客户下载解析。

通用文本向量-async-v2
向量模型

通用文本向量的批处理接口,通过这个接口客户可以以文本方式一次性的提交大批量的向量计算请求,在系统完成所有的计算之后,大模型服务平台会将结果信息存储在结果文件中供客户下载解析。

语音合成CosyVoice大模型
语音合成

CosyVoice 是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。

语音生成cosyvoice-v2大模型
语音合成

cosyvoice-V2是通义实验室依托大规模预训练语言模型,在深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。

灵动人像LivePortrait-detect
视频生成

LivePortrait-detect是辅助LivePortrait的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

灵动人像LivePortrait
视频生成

LivePortrait是一款视频生成模型,可基于人物图片生成轻量化的人物肖像动态视频。

悦动人像EMO-detect
视频生成

EMO-Detect是辅助EMO的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

视频风格重绘
视频生成

视频风格重绘可以将输入的视频帧序列进行多种风格化的重绘/生成,使新视频画面在兼顾原始人物和物体相貌的同时,带来不同风格的绘画效果。当前支持预置重绘风格包括日式漫画、美式漫画、清新漫画、3D卡通、国风卡通。

悦动人像EMO
视频生成

EMO是一款视频生成模型,可基于人物图片生成高质量的人物肖像动态视频。

人工导购
咨询服务