声音复刻Cosyvoice大模型,依托先进的大模型技术进行特征提取,从而完成声音的复刻,且无需训练过程。仅需提供时长较短的音频,即可迅速生成高度相似且听感自然的定制声音。
通义千问系列角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。
热词是指用户可以预先定义的一组特定词汇或短语,这些词汇或短语在识别、翻译过程中会被赋予更高的优先级。针对您的特定业务领域,如果有部分词汇的语音识别、翻译效果不够好,可以将这些关键词或短语添加为热词进行优先识别或翻译,从而提升识别、翻译效果。
多语言语音转写及翻译的多模态大模型。本模型支持60秒以内的实时语音识别,适用于语音搜索、设备指令等场景。提供10个混合语种的高准确率识别服务,同时支持中英日韩互译,以其他6个语种翻译成中文或英文。
Paraformer语音识别提供的文件转写API,能够对常见的音频或音视频文件进行语音识别,并将结果返回给调用者。Paraformer中文语音识别模型,支持8kHz电话语音识别。
推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持8kHz电话客服等场景下的实时语音识别。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 注:paraformer-realtime-v2暂不支持热词。
通义万相-文本生成图像大模型,支持中英文双语输入,重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通,本模型为通义万相的2024年5月21号的历史快照。
关注公众号
立刻获取最新消息及人工咨询