推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 可支持热词。
推荐使用 Paraformer最新语音识别模型,支持多个语种的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果,支持任意采样率。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。可支持热词。
stable-diffusion-3.5-large是一个具有8亿参数的多模态扩散变压器(MMDiT)文本到图像生成模型,具备卓越的图像质量和提示词匹配度,支持生成100万像素的高分辨率图像,且能够在普通消费级硬件上高效运行。
stable-diffusion-3.5-large-turbo是在stable-diffusion-3.5-large的基础上采用对抗性扩散蒸馏(ADD)技术的模型,具备更快的速度。
通用文本向量的批处理接口,通过这个接口客户可以以文本方式一次性的提交大批量的向量计算请求,在系统完成所有的计算之后,大模型服务平台会将结果信息存储在结果文件中供客户下载解析。
通用文本向量的批处理接口,通过这个接口客户可以以文本方式一次性的提交大批量的向量计算请求,在系统完成所有的计算之后,大模型服务平台会将结果信息存储在结果文件中供客户下载解析。
视频风格重绘可以将输入的视频帧序列进行多种风格化的重绘/生成,使新视频画面在兼顾原始人物和物体相貌的同时,带来不同风格的绘画效果。当前支持预置重绘风格包括日式漫画、美式漫画、清新漫画、3D卡通、国风卡通。
关注公众号
立刻获取最新消息及人工咨询