阿里巴巴推出两款新语音模型，可自定义角色和模拟背景声音 – 新京报 – 吃瓜网每日大赛-吃瓜爆料，精彩不断，快来参与！

新京报贝壳财经讯（记者罗一丹）3月2日，阿里巴巴上线了两款新的语音模型，分别是参考音频的声音克隆模型Fun-CosyVoice3.5和参考无音频的音调设计模型Fun-AudioGen-VD。两款机型均拥有强大的“指令跟随”功能，可自由控制语音情绪、语速、场景等。Freestyle可自定义角色，适用于有声读物、游戏、客服、播客、教育、直播等多种场景。在Seed-TTS基准的中文“困难情况”指标上，Fun-CosyVoice3.5表现良好，显示出最高的单词错误率（WER）和说话人相似度（SSIM）。同时，优化“疑难案例”发音，将生僻词、短语的错误率从15.2%降低到5.3%。 Fun-CosyVoice3.5支持自由模式下的语音控制命令，解决了传统克隆模型只能模仿人物而无法模仿的问题指定字符。例如，您可以录制一个人的声音，然后键入说明。假设这个人是一位高级客户服务代表，他面对着一位非常愤怒的客户。你的回应语气应该是柔和的、真诚的、有罪恶感的，并且能够理解客户的情绪。 Fun-AudioGen-VD 专注于“从头开始”的声音设计。您不仅可以根据指令自定义声音和情绪，还可以同时模拟复杂的聆听环境。例如，在生成人声时，您可以添加特定类型的背景声音，例如城市交通、雨和风、战场炮击、警报器、无线电噪音、咖啡馆声音、俱乐部音乐以及浏览图书馆书籍的声音。撰稿：杨娟娟，校对：陈迪彦

阿里巴巴推出两款新语音模型，可自定义角色和模拟背景声音 – 新京报

推荐文章

库尔德工人党宣布从土耳其撤军 – 新京报

许多“好房子”将在今年的服务博览会上宣布：北京新闻

各大国有银行出手：黄金储备业务门槛再度提高，银行“卡”投资者风险评级

发表评论取消回复

推荐文章

发表评论 取消回复

发表评论取消回复