TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals
- 摘要
- 方法
- 视频单元处理
- 剪辑金字塔建模
- 单元级别时间坐标回归
- 损失
摘要
问题: Temporal Action Proposal(TAP)生成是一个重要的问题。
解决: 提出了一种新颖的 Temporal Unit Regression
Network(TURN)模型。
- TURN通过时间坐标回归联合预测行为建议并细化时间边界;
- 通过 unit feature reuse 实现快速计算:将未裁剪的长视频分解为视频单元,这些视频单元被重用作为时间提议的基本构建块。
方法
视频单元处理
目的: 避免对同一窗口或重复重叠窗口进行视觉特征提取。
解决: 使用视频单元(video units)作为基础处理单元。
- 一个视频 包含 帧: { } ,将其分成 个连续的视频单元, 是一个单元的帧数。
- 一个单元表示为 { } ,其中, 是起始帧。
- 每个单元通过视觉编码器 得到单元级别表示$f_u=E_v(u)。
剪辑金字塔建模
- 一个剪辑
,内部单元: {
}
,其中,
,
是起始单元的索引。
上下文单元:{ } 和{ } , - 内部特征和上下文特征是通过函数 分开池化的。剪辑的最终特征 是上下文特征和内部特征的串联: 是mean pooling。
通过在每个单元位置(即ancjor单元)构建窗口金字塔来扫描未裁剪的视频。一个剪辑金字塔 由不同时间分辨率的时间窗组成, {KaTeX parse error: Expected group after '_' at position 5: c^{n_?}}, { }。请注意,尽管多分辨率剪辑会有时间重叠,但剪辑级别的特征是由单元级别的特征计算得到的,而单元级别的特征只计算一次。
单元级别时间坐标回归
想法: 人类可以在不观察整个实例的情况下推断出行为实例(例如射击篮球,挥杆高尔夫)的大概开始和结束时间,类似地,神经网络也可以推断出时间边界。
解决: 设计了一个单元回归模型。
- 输入: 剪辑级表示
- 输出:并具有两个同级输出层。 第一个输出置信度分数,该置信度分数指示输入的片段是否为行为实例。 第二个输出时间坐标回归偏移量:
两个显着方面。 首先,采用单位级的坐标回归。 由于提取了基本单位级别的特征以对 个帧进行编码,因此该特征可能不足以区分出帧级别的坐标。 与帧级回归相比,单位级坐标回归更容易学习和更有效。 其次,与空间包围盒回归相反,我们不使用坐标参数化。 我们直接回归起始单位坐标和结束单位坐标的偏移量。 原因是由于摄像机的投影,可以在图像中对对象进行重新缩放,因此应该首先将边界框坐标标准化为某个标准比例。 但是,行为的时间跨度无法轻松地在视频中调整。
损失
- 为每个剪辑(在每个anchor单元生成)分配了一个二进制类标签(是否为行为)。 在以下情况下,将为片段分配一个positive标签:
(1)具有groundtruth片段重叠(tIoU)最高的窗口片段;
(2)窗口片段与任意groundtruth的tIoU大于0.5。
请注意,单个groudtruth片段可将positive标签分配给多个窗口片段。 负标签分配给所有与groudtruth的tIoU等于0.0(即无重叠)的non-positive剪辑。 - 损失:
是标签, 是positive标签数,只是用positive samples计算。