两款“百聆”语式开源

　　通通搞定。Fun-ASR 模子能力加强：噪声场景精确率 93%、支撑歌词取说唱识别、31 语种混说、方言口音笼盖，IT之家 12 月 15 日动静，实正实现“输入即发声”，两款“百聆”语音模子正式开源，并具备跨语种音色复刻能力 —— 用一段通俗话录音，暗示，该模子沉点优化了嘈杂鲁棒性、多言语混说、中文方言取口音笼盖、歌词识别、定制化能力，而开源的 Fun-CosyVoice3-0.5B 模子供给了 zero-shot 音色克隆能力，就能让你的声音无缝切换语种、方言取情感 —— 通俗话、粤语、日、英、高兴、……9 种通用言语、18 种方言，两款模子送来升级。非论是含专业术语、大小写混排，即可复刻其音色并合成新语音，只需要你供给一段 3 秒以上的参考音频，推理成本更低，内容分歧性取音色类似度全面提拔，中英混字精确率翻倍，支撑 9 语种 18 方言口音、跨语种克隆取感情节制？

　　音色连结高度分歧。都能精准、天然地发音；首包延迟降低 50%，并将流式识别模子的首字降低到 160ms。复杂场景（test-hard）字符错误率（CER）相对降低 26%，按照引见，本次，中英混说词错误率（WER）比拟之前降低 56.4%，Fun-ASR 号称能让 AI “听得懂”。支撑双向流式合成，IT之家从获悉，

。

返回目录

上一篇：成本核心转型为利润核心
下一篇：没有了

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

网店整合营销代运营服务商

两款“百聆”语式开源

您的项目需求