Video Skimming: Taxonomy and Comprehensive Survey
一、简介
Video Skimming视频略读,又称为动态视频摘要。静态视频摘要是指提取视频中的关键帧,而动态视频摘要是生成短视频。可以利用内部信息和外部信息。内部信息是指视频、音频和文本;外部信息是指用户评论、用户打分、视频回顾(类似于影评)。
二、系统架构
Segmentation:将当前视频分成更小的单元,称为skim unit。将视频分成最小的可理解单元,并单独处理。最小的可理解单元是指可以传达特定含义的帧数最少的单元。
Importance computation:计算skim unit的重要性。
User preferences:设定用户需求,比如skim长度、skim类型(强调或者总括)。
Skim unit selection:选择需要的skim unit,去重。
三、分类
- 不同领域的视频摘要说明以及评估标准:
- 不同类型的视频摘要的发展趋势:
- 论文中还有详细的数据集划分。
四、总结
挑战:
- 深度学习方法缺乏大量的训练数据;
- 长视频摘要问题;
- 实时摘要问题;
- 多模态或者跨媒体摘要问题。
未来方向:
- 确定最佳摘要长度;
- 视频摘要的可理解性,确定最小视频单元的时间长度;
- 通用领域的视频摘要问题;
- 为其他任务合成数据集;
- 评估标准的问题。
- 本文作者: 鱼咸滚酱
- 本文链接: https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/17/Report-Video-Skimming-Taxonomy-and-Comprehensive-Survey/
- 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!