当前位置:首页 > 科技文档 > 电信技术 > 正文

基于注意力机制的音频驱动数字人脸视频生成方法

计算机科学 页数: 8 2025-03-18
摘要: 音频驱动数字人脸视频生成的难点问题在于,如何将音频与视频两种不同模态的信息对齐,从而实现唇音同步。现有技术大多基于英文数据集开发,由于中文发音与英文发音存在差异性,直接将这些技术运用于中文音频驱动数字人脸视频生成时,存在牙齿模糊和视频清晰度不够的问题。基于GAN框架,提出了一种基于注意力机制的音频驱动数字人脸视频生成方法M-CSAWav2Lip。将MFCC和Mel Spectr... (共8页)

开通会员,享受整站包年服务
说明: 本文档由创作者上传发布,版权归属创作者。若内容存在侵权,请点击申诉举报