当前位置:首页 > 科技文档 > 电信技术 > 正文

VALL-E R:利用单调对齐策略的鲁棒且高效零样本语音合成

信号处理 页数: 10 2025-07-29
摘要: 借助离散神经音频编解码器的能力,大型语言模型(Large language model, LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech, TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错误、遗漏和重复等鲁棒性问题。为了解决上述问题,我们提出了VALL-E R,一个鲁棒且高效的零样本TTS系统,并以... (共10页)

开通会员,享受整站包年服务
说明: 本文档由创作者上传发布,版权归属创作者。若内容存在侵权,请点击申诉举报