当前位置:首页 > 科技文档 > 电信技术 > 正文

跨模态双向注意力的视听双主导语音增强方法

信号处理 页数: 12 2025-07-29
摘要: 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,... (共12页)

开通会员,享受整站包年服务
说明: 本文档由创作者上传发布,版权归属创作者。若内容存在侵权,请点击申诉举报