李沐团队发布语音模型新杀器:111种语言、零样本克隆、实时对话!
AI说话的时代,终于不用等它把整句话读完了。
就在几天前,李沐联合创立的Boson AI发布Higgs Audio v3 TTS,直接接入SGLang推理框架。这个模型最狠的地方:不用等完整句子出现,拿到几个字就能开始合成语音,而且前后音色、情绪、语速完全一致。
一、111种语言,个位数错误率
传统TTS做多语言,翻车是常态。
Higgs Audio v3覆盖111种语言和方言,100种语言上的语音识别错误率全部达到个位数。更狠的是零样本声音克隆&md
资讯
admin
2026-06-06
19