当前位置:首页 > 实用文档 > 电信技术 > 正文

多声学特征融合的语音自动剪辑深度学习模型

小型微型计算机系统 页数: 7 2022-06-16
摘要: 剪辑是音视频制作中的重要环节,剪辑师需综合考虑剪辑节奏、关联性等要素,耗费大量人力和时间.从剪辑特性和实际应用出发,本文提出了一种多声学特征融合的语音自动剪辑深度学习模型(CNN-BiGRU),它可以识别媒体中的语音部分并进行艺术化的自动剪辑.模型提取了对数梅尔频谱、短时能量和短时过零率3种特征,通过多个卷积神经网络融合后输入双向门控循环神经网络.采用基于课程式学习的方式,使用...