当前位置: 代码迷 >> 综合 >> 论文阅读:TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals
  详细解决方案

论文阅读:TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

热度:44   发布时间:2024-01-28 10:54:46.0

TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

  • 摘要
  • 方法
    • 视频单元处理
    • 剪辑金字塔建模
    • 单元级别时间坐标回归
    • 损失

在这里插入图片描述

摘要

问题: Temporal Action Proposal(TAP)生成是一个重要的问题。
解决: 提出了一种新颖的 Temporal Unit Regression
Network(TURN)模型。

  1. TURN通过时间坐标回归联合预测行为建议并细化时间边界;
  2. 通过 unit feature reuse 实现快速计算:将未裁剪的长视频分解为视频单元,这些视频单元被重用作为时间提议的基本构建块。

方法

在这里插入图片描述

视频单元处理

目的: 避免对同一窗口或重复重叠窗口进行视觉特征提取。
解决: 使用视频单元(video units)作为基础处理单元。

  1. 一个视频 V V 包含 T T 帧: V = V= { t i t_i } 1 T ^T_1 ,将其分成 T / n u T/n_u 个连续的视频单元, n u n_u 是一个单元的帧数。
  2. 一个单元表示为 u = u= { t i t_i } s f s f + n u ^{s_f+n_u}_{s_f} ,其中, s f s_f 是起始帧。
  3. 每个单元通过视觉编码器 E v E_v 得到单元级别表示$f_u=E_v(u)。

剪辑金字塔建模

  1. 一个剪辑 c c ,内部单元: { u j u_j } s u e u ^{e_u}_{s_u} ,其中, e u = s u + n c e_u=s_u+n_c s u s_u 是起始单元的索引。
    上下文单元:{ u j u_j } s u ? n c t x s u ^{s_u}_{s_u-n_{ctx}} 和{ u j u_j } e u e u + n c t x ^{e_u+n_{ctx}}_{e_u} n c t x n_{ctx}
  2. 内部特征和上下文特征是通过函数 P P 分开池化的。剪辑的最终特征 f c f_c 是上下文特征和内部特征的串联:在这里插入图片描述 P P 是mean pooling。

通过在每个单元位置(即ancjor单元)构建窗口金字塔来扫描未裁剪的视频。一个剪辑金字塔 p p 由不同时间分辨率的时间窗组成, p = p= {KaTeX parse error: Expected group after '_' at position 5: c^{n_?}}, n c n_c∈ { n c , 1 , n c , 2 , . . . n_{c,1},n_{c,2},... }。请注意,尽管多分辨率剪辑会有时间重叠,但剪辑级别的特征是由单元级别的特征计算得到的,而单元级别的特征只计算一次。

单元级别时间坐标回归

想法: 人类可以在不观察整个实例的情况下推断出行为实例(例如射击篮球,挥杆高尔夫)的大概开始和结束时间,类似地,神经网络也可以推断出时间边界。
解决: 设计了一个单元回归模型。

  1. 输入: 剪辑级表示 f c f_c
  2. 输出:并具有两个同级输出层。 第一个输出置信度分数,该置信度分数指示输入的片段是否为行为实例。 第二个输出时间坐标回归偏移量:在这里插入图片描述

两个显着方面。 首先,采用单位级的坐标回归。 由于提取了基本单位级别的特征以对 n u n_u 个帧进行编码,因此该特征可能不足以区分出帧级别的坐标。 与帧级回归相比,单位级坐标回归更容易学习和更有效。 其次,与空间包围盒回归相反,我们不使用坐标参数化。 我们直接回归起始单位坐标和结束单位坐标的偏移量。 原因是由于摄像机的投影,可以在图像中对对象进行重新缩放,因此应该首先将边界框坐标标准化为某个标准比例。 但是,行为的时间跨度无法轻松地在视频中调整。

损失

  1. 为每个剪辑(在每个anchor单元生成)分配了一个二进制类标签(是否为行为)。 在以下情况下,将为片段分配一个positive标签:
    (1)具有groundtruth片段重叠(tIoU)最高的窗口片段;
    (2)窗口片段与任意groundtruth的tIoU大于0.5。
    请注意,单个groudtruth片段可将positive标签分配给多个窗口片段。 负标签分配给所有与groudtruth的tIoU等于0.0(即无重叠)的non-positive剪辑。
  2. 损失:
    在这里插入图片描述在这里插入图片描述
    l i ? l^*_i 是标签, N p o s N_{pos} 是positive标签数,只是用positive samples计算。
  相关解决方案