【Paper Note】FiBiNet论文详解_综合

概述

ctr预估任务中，对输入特征进行建模，通过权重weight拟合特征和样本的关系，但实际任务中，特征之间的重要度也是不同的，
某些特征天然地与label具有较强关联性，因此，在模型中增加对特征本身重要度的描述，有利于模型更好的描述样本。
FiBiNet通过SENet的方式来解决上述问题；同时，从FM到FFM、DeepFM等模型，交叉特征的重要程度不言而喻，通常通过点积或hadamard积的方式获取特征交互，
这样获取特征交互的方式是否有效或者说是否最佳？这篇论文通过Bilinear-Interaction提出了交互特征提取的新方式。

整体架构

如下图所示：
在这里插入图片描述

除常规的embedding layer、hidden layer，本文将详细介绍SENet layer和Bilinear-Interaction layer。

embedding layer

输入数据为高维稀疏特征，经过embedding生成低维embedding $E=[e_1, e_2, \cdots , e_f]$ ，其中f为field的个数

SENet layer

SE block最早出现在cv相关的论文中，来学习每个特征的重要性，之前的一篇博客【Paper Note】SENet论文——SE block详解中有介绍，如下图所示：
在这里插入图片描述

Squeeze
将每个embedding做average pooling，计算公式如下：
$z_i = F_{sq}(e_i) = \frac{1}{k} \sum_{t=1}^k{e_i^{(t)}} \tag{1}$

Excitation
通过两层fully connected layers来学习每个field的权重，表示如下：
$F_{ex}(Z)= \sigma_2(W_2 \sigma_1(W_1 Z)) \tag{2}$
其中， $W_1$ 是 $\times r$ 维权重矩阵， $W_2$ 是 $\times f$ 维权重矩阵，其中 $r < f$ 。

Reweight
基于field粒度的乘积运算动态学习每个特征的重要度，实现如下：
$F_{ReWeight}(A, E) = [a_1 \cdot e_1, \cdots , a_f \cdot e_f] = [v_1, \cdots, v_f] \tag{3}$

Bilinear-Interaction layer

不同于FM或DeepFM模型中使用点积或hadamard积来获取交互特征，本文提出了Bilinear-Interaction方式，具体情况入下图c中所示， $v_i$ 首先会乘一个权重矩阵 $W$ 之后再和 $v_j$ 计算hadamard积。
在这里插入图片描述
根据权重矩阵 $W$ 的不同分配方式，会有三种情况：
Field-All Type
所有的field共用一个权重矩阵 $W$ ，具体如下：
$p_{ij} = v_i \cdot W \odot v_j \tag{4}$
上述方式，参数量为 $m$ ， $m$ 为权重矩阵的参数量，下同。
Field-Each Type
每个field对应一个权重矩阵 $W$ ，具体如下：
$p_{ij} = v_i \cdot W_i \odot v_j \tag{5}$
上述方式，参数量为 $\times m$ ， $f$ 为field个数，下同。
Field-Interaction Type
每个交叉特征对应一个权重矩阵 $W$ ，具体如下：
$p_{ij} = v_i \cdot W_{ij} \odot v_j \tag{6}$
上述方式，参数量为 $\frac{f(f-1)}{2} \times m$ 。

经过SENet和Bilinear-Interaction之后，原本的embedding计算得到向量 $[q_1, \cdots q_i \cdots q_n]$ 。

Other layer

后面是一些常规操作，首先将embedding经过Bilinear-Interaction得到的 $p$ 和embedding经过SENet再经过Bilinear-Interaction得到的 $q$ 进行concat：
$F_{concat}(p,q) = [p_1, \cdots p_n, q_1, \cdots, q_n] = [c_1, \cdots, c_{2n}] \tag{7}$
之后经过多层hidden layer：
$a^{(l)} = \sigma(W^{(l)} a^{(l-1)} + b^{(l)}) \tag{8}$
hidden layer输出的结果经过sigmoid输出：
$\hat{y} = \sigma(w_0 + \sum_{i=0}^m{w_i x_i} + y_d) \tag{9}$
损失函数定义为：
$-\frac{1}{N} \sum_{i=1}^N(y_i log(\hat{y}_i) + (1-y_i) * log(1-\hat{y}_i)) \tag{10}$