新京报贝壳财经讯(记者罗一丹)3月2日,阿里巴巴上线了两款新的语音模型,分别是参考音频的声音克隆模型Fun-CosyVoice3.5和参考无音频的音调设计模型Fun-AudioGen-VD。两款机型均拥有强大的“指令跟随”功能,可自由控制语音情绪、语速、场景等。Freestyle可自定义角色,适用于有声读物、游戏、客服、播客、教育、直播等多种场景。在Seed-TTS基准的中文“困难情况”指标上,Fun-CosyVoice3.5表现良好,显示出最高的单词错误率(WER)和说话人相似度(SSIM)。同时,优化“疑难案例”发音,将生僻词、短语的错误率从15.2%降低到5.3%。 Fun-CosyVoice3.5支持自由模式下的语音控制命令,解决了传统克隆模型只能模仿人物而无法模仿的问题指定字符。例如,您可以录制一个人的声音,然后键入说明。假设这个人是一位高级客户服务代表,他面对着一位非常愤怒的客户。你的回应语气应该是柔和的、真诚的、有罪恶感的,并且能够理解客户的情绪。 Fun-AudioGen-VD 专注于“从头开始”的声音设计。您不仅可以根据指令自定义声音和情绪,还可以同时模拟复杂的聆听环境。例如,在生成人声时,您可以添加特定类型的背景声音,例如城市交通、雨和风、战场炮击、警报器、无线电噪音、咖啡馆声音、俱乐部音乐以及浏览图书馆书籍的声音。撰稿:杨娟娟,校对:陈迪彦