当前位置:首页 > 实用文档 > 计算机软件及计算机应用 > 正文

基于多模态特征的视频密集描述生成方法

中文信息学报 页数: 13 2022-11-15
摘要: 根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构和语义关系。为此,该文提出一种基于多模态特征的视频密集描述生成方法。该方法首先在动作提议生成阶段使用Timeception层作为基础模块以更好适应动作片段时间跨度的...
...