当前位置: 代码迷 >> 综合 >> 【Paper Note】DCN——Deep Cross Network for Ad Click Prediction论文翻译(中文)
  详细解决方案

【Paper Note】DCN——Deep Cross Network for Ad Click Prediction论文翻译(中文)

热度:44   发布时间:2023-12-16 22:45:28.0

这里写图片描述

摘要

特征工程一直是许多预测模型成功的关键。然而这个过程是重要的,而且经常需要手动进行特征工程或遍历搜索。DNN可以自动地学习特征地交互作用,然而,它们隐式地的生成所有的特征交互,这对于学习所有类型的交叉特征不一定有效。在本文中,我们提出了一种能够保持深度神经网络良好收益的深度交叉网络(DCN),除此之外,它还引入了一个新的交叉网络,更有效地学习在一定限度下的特征相互作用,更有甚,DCN在每一层确切地应用交叉特征而不需要人工特征工程,这相比于DNN模型增加地额外地复杂度可以忽略不计。我们的实验证明它在CTR预测数据机和稠密分类数据机上具有优越性能。

1 介绍

点击率(CTR)预测是一个大规模问题,对于数十亿美元的广告业来说至关重要,在广告业,广告商付钱给出版商,以便在它们的网站上发布广告,一种流行的付费模式是单次点击付费(CPC)模型,广告商只在用户点击时收取费用,因此,出版商的收入在很大程度上依赖于准确预测CTR的能力。
识别频繁的预测特征,同时探索隐式的或罕见的交叉特征是做好预测的关键,然而,Web规模推荐系统的数据大多是离散的和分类的,导致大量和稀疏的特征空间,这是具有挑战性的特征探索,这也限制了大多数大型系统的线性模型,如logistic回归。
线性模型简单、可解释、容易扩展,但限制了模型的表达能力,另一方面,交叉特征在提高模型表达能力方面具有重要意义,不幸的是,它常常需要人工特征工程或遍历搜索来识别这些特征;此外,泛化到隐式的特征交互是困难的。
在本文中,我们的目标是通过引入一种新的神经网络结构(跨网络)来避免特定于任务的特征工程,它以自动方式显式地应用特征交叉。交叉网络由多个层组成,其中层的深度可以证明交互作用的最高程度,每个层基于现有的层产生高阶交互,并保持与先前层的交互,我们跨网联合深层神经网络(DNN)进行训练[ 10, 14 ],DNN已经捕捉到非常复杂的相互作用的有限元分析,然而,相比我们的跨网络需要近一个数量级以上的参数,无法形成明确的交叉特征,可能无法有效地学习特征相互作用的类别。联合训练的交叉网络和DNN的组分能够有效地捕获预测特征的关系,并在Criteo CTR数据集上获得优越性能。

1.1 相关工作

由于数据集规模和维数的急剧增加,已经提出了许多方法,用来避免大规模特定任务的特征工程,主要是基于嵌入技术和神经网络。
因子机(FMs)[ 11, 12 ]将稀疏特征投射到低维稠密向量上,学习向量内积的特征相互作用,场意识的分解机(FFMs)[ 7, 8 ]进一步允许每个特征向量,每个向量学习的几个与字段关联,遗憾地是,浅层低结构的FMS和FMMs限制他们的表达能力,已经有工作扩展FMS到更高的等级[ 1, 18 ],但缺点在于他们大量的参数会产生更大的计算成本。深度神经网络(DNN)能够学习不平凡的高程度特征相互作用由于嵌入载体和非线性激活函数,最近非常成功的残差网络[5]使非常深网络的训练成为可能,DCN[ 15 ]扩展了残差网络,通过叠加所有类型的输入实现自动的特征学习。
深度学习的显著成功,引发了对其表达能力上的理论分析,已经有研究[ 16, 17 ]表明DNN能够逼近任意函数的某些平滑假设下的任意的精度,给出了足够多的隐藏单元或隐藏层,此外,在实践中,已发现DNNs工作以及可行的参数个数。其中一个关键原因在于实际兴趣的大部分功能并不是任意的。
然而,还有一个问题是,DNN是否真的表达出实际利益最有效的功能。在kaggle竞赛中,人工生成的特征在许多获奖的解决方案中处于低程度,具有显式格式和有效性,了解到DNN的特点是内隐的、高度非线性的,这揭示了一个模型能够比通用的DNN设计更能够有效地学习的有界度特征相互作用。
W&D网络[ 4 ]是这种精神的典范。它以交叉特征作为一个线性模型的输入,与一个DNN模型一起训练线性模型,然而,W&D网络的成功取决于正确的交叉特征的选择,这是一个至今还没有明确有效的方法解决的指数问题。

1.2 主要贡献

在本文中,我们提出了深度交叉网络(DCN)模型,使网络规模的自动进行稀疏和密集输入的特征学习,DCN有效地捕获有限度的有效特征的相互作用,学会高度非线性的相互作用,不需要人工特征工程或遍历搜索,并具有较低的计算成本。
论文的主要贡献包括:

  • 我们提出了一种新的交叉网络,在每个层上明确地应用特征交叉,有效地学习有界度的预测交叉特征,并且不需要手工特征工程或穷举搜索。
  • 跨网络简单而有效。通过设计,各层的多项式级数最高,并由层深度决定。网络由所有的交叉项组成,它们的系数各不相同。
  • 跨网络内存高效,易于实现。
  • 我们的实验结果表明,交叉网络(DCN)在LogLoss上与DNN相比少了近一个量级的参数量。

本文的结构如下:第2节描述了深层和交叉网络的体系结构。第3部分详细分析了交叉网络。第4节给出了实验结果。

2 深度交叉网络(DCN)

在本节中我们介绍深度交叉网络的体系结构(DCN)模型。一个DCN模型从嵌入和堆积层开始,接着是一个交叉网络和一个与之平行的深度网络,之后是最后的组合层,它结合了两个网络的输出。完整的网络模型如图1所示。

2.1 嵌入和堆叠层

我们考虑具有稀疏和密集特征的输入数据。在网络规模推荐系统中,如CTR预测,输入主要是分类特征,如“country=usa”。这些特征通常是编码为独热向量如“[ 0,1,0 ]”;然而,这往往导致过度的高维特征空间大的词汇。
为了减少维数,我们采用嵌入过程将这些二进制特征转换成实数值的稠密向量(通常称为嵌入向量): x e m b e d , i = W e m b e d , i x i (1) x_{embed,i} =W_{embed,i}x_i\tag{1} xembed,i?=Wembed,i?xi?(1) 其中, x e m b e d , i x_{embed,i} xembed,i? 是嵌入向量, x i x_i xi? 是第i层的二元输入, W e m b e d , i W_{embed,i} Wembed,i? R n e × n v R^{n_e \ ×\ n_v} Rne? × nv? 是与网络中的其他参数一起优化的相应的嵌入矩阵, n e n_e ne? , n v n_v nv? 分别是嵌入大小和词汇大小,最后,我们将嵌入向量与归一化稠密特征 x d e n s e x_{dense} xdense?叠加起来形成一个向量: x 0 = [ x e m b e d , 1 T , ? , x e m b e d , k T , x d e n s e T ] (2) x_0 = [x^T_{embed,1},\cdots,x^T_{embed,k},x^T_{dense}] \tag{2} x0?=[xembed,1T?,?,xembed,kT?,xdenseT?](2) x 0 x_0 x0? 就是网络的输入。

2.2 交叉网络

我们的交叉网络的核心思想是以有效的方式应用显式特征交叉。交叉网络由交叉层组成,每个层具有以下公式: x l + 1 = x 0 x l T w l + b l + x l = f ( x l , w l , b l ) + x l (3) x_{l + 1} = x_0\ x^T_l w_l + b_l + x_l = f ( x_l , w_l , b_l ) + x_l \tag{3} xl+1?=x0? xlT?wl?+bl?+xl?=f(xl?,wl?,bl?)+xl?(3) 其中, x l , x l + 1 ∈ R d x_l , x_{l +1} ∈ R^d xl?,xl+1?Rd表示 l l l 层和 l + 1 l+1 l+1 层输出的列向量。每个交叉层在特征越过F之后添加其输入,而映射函数$\ f\ 为 : 为: R^d → R^d$ ,残差符合 x l + 1 ? x l x_{l +1} ? x_l xl+1??xl? ,一个交叉层的可视化如图2所示。
这里写图片描述
交叉特征高度交互。交叉网络的特殊结构使交叉特征的程度随着层深度的增加而增大。多项式的最高程度(就输入X0而言)为L层交叉网络L + 1。事实上,交叉网络包含了从1到L1的所有交叉项。详细分析见第3节。
复杂度分析 L c L_c Lc?表示交叉层数, d d d表示输入维度。然后,参数的数量参与跨网络参数为: d × L c × 2 d × L_c × 2 d×Lc?×2 交叉网络的时间和空间复杂度在输入维度上是线性的。因此,一个跨网络引入了可以忽略不计的复杂性相比,其深刻的对应,DCN的整体复杂性保持在相同的水平,一个传统的DNN。这种效率得益于 x 0 x l T x_0x^T_l x0?xlT?的rank-one性质,它使我们能够在不计算或存储整个矩阵的情况下生成所有交叉项。
交叉网络的少数参数限制了模型容量。为了捕捉高度非线性的相互作用,我们并行地引入了一个深度网络。

2.3深度网络

深度网络就是一个全连接的前馈神经网络,每个深度层具有如下公式: h l + 1 = f ( W l h l + b l ) ( 4 ) h_{l+1} = f(W_lh_l +b_l)\ \ \ \ \ \ \ (4) hl+1?=f(Wl?hl?+bl?)       (4) 其中, h l ∈ R l n , h l + 1 ∈ R l + 1 n h_l ∈ R^n_l ,h_{l+1} ∈ R^n_{l+1} hl?Rln?,hl+1?Rl+1n? 是第$\ l\ $ 层和第 l + 1 \ l+1  l+1 层的隐藏层, W l ∈ R l + 1 n × n l , b l ∈ R l + 1 n W_l ∈ R^n_{l+1}×n_l ,b_l ∈ R^n_{l+1} Wl?Rl+1n?×nl?,bl?Rl+1n?是第$\ l\ $ 层的参数, f ( ? ) f (·) f(?) 是ReLU激活函数。
复杂度分析。简单起见,我们假设所有的深层都是一样大小的。 L d L_d Ld? 表示层的深度, m m m 表示深层尺寸。在深度网络中,参数量为: d × m + m + ( m 2 + m ) × ( L d ? 1 ) d×m+m+(m^2 +m)×(L_d?1) d×m+m+(m2+m)×(Ld??1)

2.4融合层

融合层链接两个网络并将连接向量输入到标准的逻辑回归函数中。
下面的公式为一个二分类问题:
p = σ ( [ x L 1 T , h L 2 T ] w l o g i t s ) (5) p=\sigma([x^T_{L_1},h^T_{L_2}]w_{logits}) \tag{5} p=σ([xL1?T?,hL2?T?]wlogits?)(5)
其中, x L 1 ∈ R d , h L 2 ∈ R m x_{L_1} ∈R^d,h_{L_2} ∈R^m xL1??Rd,hL2??Rm 为cross网络和deep网络的输出, w ∈ R ( d + m ) w ∈ R^{(d+m)} wR(d+m) 是融合层的权重,并且 σ ( x ) = 1 / ( 1 + e x p ( ? x ) ) \sigma(x) = 1/(1 + exp(?x)) σ(x)=1/(1+exp(?x)).

3. 交叉网络分析

在这一节中,我们将分析DCN的交叉网络来理解它的作用。我们提出了三个看法:多项式近似,泛化FM和有效的映射。简单起见,假设 b i = 0 b_i = 0 bi?=0
注意,令第i层元素的权重表示为 w j ( i ) w^{(i)}_j wj(i)?,对于多下标: α = [ α 1 , ? ? ? , α d ] ∈ N d \alpha = [ \alpha1,··· ,αd] ∈ N^d α=[α1,???,αd]Nd x = [ x 1 , ? ? ? , x d ] ∈ R d x = [x_1,··· ,x_d] ∈ Rd x=[x1?,???,xd?]Rd, 定义 ∣ α ∣ = d i = ∑ i = 1 d α i |α|= d_i=\sum_{i=1}^dα_i α=di?=i=1d?αi?
术语。将 x 1 α 1 x 2 α 2 ? ? ? x d α d x^{α_1}_1x^{α_2}_2 ···x^{α_d}_d x1α1??x2α2?????xdαd??交叉项定义为 ∣ α ∣ |α| α,多项式定义为它的高阶项。

3.1 多项式近似

根据Weierstrass近似理论,任何函数在某些平滑假设可以用一个多项式近似任意精度。因此,我们分析了交叉网络从多项式近似的角度。特别是交叉网络近似多项式类相同的学位是有效的方式,表达和概括现实世界的数据集。
我们将近似一个交叉网络来详细研究同阶多项式。令 P n ( x ) P_n(x) Pn?(x)表示n阶多元多项式:
P n ( x ) = { ∑ α w α x 1 α 1 x 2 α 2 ? x d α d ∣ 0 ≤ ∣ α ∣ ≤ n , α ∈ N d } (7) P_n(x)=\{\sum_{\alpha}w_{\alpha}x_1^{\alpha _1}x_2^{\alpha _2} \cdots x_d^{\alpha _d}|0\leq |\alpha|\leq n, \alpha \in N^d\} \tag{7} Pn?(x)={ α?wα?x1α1??x2α2???xdαd??0αn,αNd}(7)
每个多项式在这类上都有 O ( d n ) O(d^n) O(dn)系数。我们表明,只有 O ( d n ) O(d^n) O(dn)的参数、交叉网络包含所有的交叉项发生在多项式相同的程度,每一项的系数彼此不同。
定理 3.1。考虑一个 l l l层交叉网络, l + 1 l+1 l+1层可以定义为 x i + 1 = x 0 x T i w i + x i xi+1 = x0xTi wi + xi xi+1=x0xTiwi+xi。使网络的输入为 x 0 = [ x 1 , x 2 , ? , x d ] T x_0 = [x_1,x_2,\cdots ,x_d]T x0?=[x1?,x2?,?,xd?]T, 输出为 g l ( x 0 ) = x l T w l g_l(x0) = x^T_l w_l gl?(x0)=xlT?wl?,并且参数为 w i , b i ∈ R d w_i,b_i ∈R^d wi?,bi?Rd。那么,多元多项式 g l ( x 0 ) g_l(x_0) gl?(x0?)产生一下情形:
{ ∑ α c α ( w 0 , ? , w l ) x 1 α 1 x 2 α 2 ? x d α d ∣ 0 ≤ ∣ α ∣ ≤ l + 1 , α ∈ N d } \{\sum_{\alpha}c_{\alpha}(w_0,\cdots,w_l)x_1^{\alpha _1}x_2^{\alpha _2}\cdots x_d^{\alpha _d}|0\leq|\alpha|\leq l+1, \alpha \in N^d\} { α?cα?(w0?,?,wl?)x1α1??x2α2???xdαd??0αl+1,αNd}其中, c α = M a ∑ i ∈ B α ∑ j ∈ P α ∏ k = 1 ∣ α ∣ w i k ( j k ) , M α c_\alpha=M_a\sum_{i\in B_\alpha}\sum_{j\in P_\alpha}\prod_{k=1}^{|\alpha|}w_{i_k}^{(j_k)},M_\alpha cα?=Ma?iBα??jPα??k=1α?wik?(jk?)?,Mα? w i w_i wi?的一个独立常数, i = [ i 1 , ? , i ∣ α ∣ ] i=[i_1,\cdots,i_{|\alpha|}] i=[i1?,?,iα?] j = [ j 1 , ? , j ∣ α ∣ ] j=[j_1,\cdots,j_{|\alpha|}] j=[j1?,?,jα?] 是多指标, B α = { y ∈ { 0 , 1 , ? , l } ∣ α ∣ ∣ y i < y j ? y α = l } B_{\alpha}=\{y\in \{0,1,\cdots,l\}^{|\alpha|} |y_i<y_j \bigwedge y_{\alpha}=l\} Bα?={ y{ 0,1,?,l}αyi?<yj??yα?=l}, 并且 p α p_{\alpha} pα? 是指标 ( 1 , ? , 1 ? α 1 t i m e s ? d , ? , d ? α d t i m e s ) (\underbrace{1,\cdots,1}_{\alpha_1\ \ times}\cdots \underbrace{d,\cdots,d}_{\alpha_d\ \ times}) (α1?  times 1,?,1???αd?  times d,?,d??)的所有排列。

3.2 泛化FMs

交叉网络共享参数共享的灵感和FM模型一样,进一步延伸到更深层次的结构。
在FM模型中,特征 x i x_i xi?和权重向量 v i v_i vi?相关联,交叉项 x i x j x_i x_j xi?xj? 的权重由 ? v i , v j ? ?v_i , v_j ? ?vi?,vj??计算。在DCN模型中, x i x_i xi?和标量 { w k ( i ) } k = 1 l \{w^{(i)}_k\}^l_{k=1} { wk(i)?}k=1l?相关联,并且 x i x j x_ix_j xi?xj?的权重从集合 { w k ( i ) } k = 0 l \{w^{(i)}_k\}^l_{k=0} { wk(i)?}k=0l? { w k ( j ) } k = 0 l \{w^{(j)}_k\}^l_{k=0} { wk(j)?}k=0l?中计算而来。两种模型每个特性学到了一些参数独立于其他功能,和交叉项的重量是一个特定组合的相应参数。
参数共享不仅使模型更有效,但也使交互模型推广到看不见的特性和更健壮的噪音。例如,以具有稀疏特征的数据集,如果两个二进制特征 x i x_i xi? x j x_j xj? 很少或从不共现的训练数据,如 x i =? 0 ? x j =? 0 x_i\not=0\bigwedge x_j\not=0 xi???=0?xj???=0,然后 x i x j x_i x_j xi?xj? 学到的权重将没有有意义的信息用以预测。
FM是一个浅结构和有限代表交叉项。相比之下,DCN可以构建所有的交叉项 x 1 α 1 x 2 α 2 ? x d α d x^{α_1}_1 x^{α2}_2 \cdots x^{α_d}_d x1α1??x2α2??xdαd?? ∣ α ∣ |α | α ,通过层的深度获得界限,定理3.1。因此,交叉网络扩展参数共享的概念从一个单层到多层和高度交叉项。注意,不同的高阶FMs,参数的个数与交叉网络只会增加线性输入维数。

3.3 有效的映射

每个交叉层项目所有成对 x 0 x_0 x0? x l x_l xl? 之间的相互作用,在一个有效的方式,回到输入的维度。
考虑 x ? ∈ R d \breve{x} ∈ R^d x?Rd作为输入交叉层。跨层第一隐式构造 d 2 d_2 d2? x i x j ? x_i\breve{x_j} xi?xj???两两交互,然后隐式项目他们回到 d d d 维节约内存。一个直接的方法,然而,附带了一个立方的成本。
我们交叉层提供了一个有效的解决方案,以在d维空间降低线性成本。考虑 x p = x 0 x ? T w x_p=x_0\breve{x}^Tw xp?=x0?x?Tw,这实际上等价于
在这里插入图片描述

4 实验结果

本节中,我们在一些主流分类数据集上评估了DCN的效果。

4.1 Criteo广告展现数据

Criteo展示广告的数据集是为了预测广告点击率,它有13个整数特征和26个分类特征,每个类别都有很高的基数。在这个数据集上,logloss具有0.001的提升都具有实际意义,当考虑到大量的用户群时,预测精度的微小提高可能会导致公司收入的大幅度增加。数据包含7天11 GB的用户日志(约4100万记录)。我们使用前6天的数据进行培训,并将第7天的数据随机分成相等大小的验证和测试集

4.2 实施详细

DCN在Tensorflow上实现,我们简要讨论DCN的一些实现细节。
数据处理与嵌入。实值特性通过应用对数变换进行标准化。对于分类特征,我们嵌入密集向量的特征维度: 6 × ( 类 别 基 数 ) 1 4 6×(类别基数)^\frac{1}{4} 6×41?。在一个1026维的向量连接所有嵌入的结果。
优化。我们使用Adam优化器进行小批量随机优化,batch size设置为512,在深度网络中设置批标准化,梯度剪切标准化设置为100。
正则化。使用早停止,因为我们发现 L 2 \ L_2  L2? 正则或使用dropout并没有效果。
超参数。我们展示了基于网格搜索的隐藏层数量、隐藏层大小、初始学习速率和跨层层数等结果。隐藏层的数量从2到5不等,隐藏层大小从32到1024。DCN,交叉层数从1到6。初始学习率进行了调整,从0.0001到0.001,增量为0.0001。所有的实验应用早期停止训练的150000步,超过150000就会出现过拟合。

4.3 模型比较

我们将DCN和以下5中模型进行比较:不带交叉网络的DCN结构(DNN)、逻辑回归(LR)、因子机(FMs)、宽而深模型(W&D)、深度交叉模型(DC)。
深度神经网络。嵌入层、输出层和超参数微调过程与DCN相同。唯一的变化是没有交叉层。
逻辑回归。我们用Sybil[ 2 ] ——一种大规模机器学习系统实现的分布式逻辑回归。在对数刻度上离散整数特征。交叉特征是由一个复杂的特征选择工具选择的,所有的单一功能都被使用了。
因子机。我们使用基于FM的模型,具有专有的细节。
W&D。不同于DCN,其广泛的组件需要输入原始稀疏的特点,以及依赖于遍历搜索和选择预测跨领域知识的特点。我们跳过了比较,因为没有已知好的方法来选择交叉特征。
DC。相比于DCN,DC并没有形成明确的交叉特征。它主要依靠堆叠和残差单位来创建隐式交叉点。我们采用相同的嵌入(堆叠)层的DCN,紧接着又热鲁层生成输入序列的残差单元。剩余单元数从1到5调整,输入尺寸和交叉尺寸从100到1026。

4.4 模型表现

在这一部分中,我们首先列出不同模型的最佳性能LogLoss,然后比较DCN DNN的细节,这是我们进一步研究的交叉网络引入的影响。

不同模型的表现。不同模型的最佳测试log损失列于表1,优化超参数设置为:DCN:两个尺寸为1024的深度层和6个交叉层;DNN为5个尺寸为1024的深度层;DC为带有输入维度为424的5个残差单元和537个交叉维度;逻辑回归有42个交叉特征。发现最优秀的性能与最深刻的交叉架构表明,高阶特征相互作用的交叉网络是有价值的。我们可以看到,DCN优于所有其他模型。特别是,它优于现有的DNN模型的状态但是相比于DNN只有40%的内存消耗。
这里写图片描述

对于每个模型的最优参数设置:10个独立运行测试log损失的标准差:DCN: 0.4422 ± 9 × 1 0 ? 5 0.4422 ± 9 × 10^{?5} 0.4422±9×10?5,DNN: 0.4430 ± 3.7 × 1 0 ? 4 0.4430 ± 3.7 × 10^{?4} 0.4430±3.7×10?4,DC: 0.4430 ± 4.3 × 1 0 ? 4 0.4430 ± 4.3 × 10^{?4} 0.4430±4.3×10?4,可以看出,DCN大幅优于其他模型。

DCN和DNN间的比较。考虑到DCN仅仅介绍 O ( d ) O(d) O(d) 以外的其他参数,对比DCN中的深度网络,——一个普通的深度神经网络,给出了不同记忆预算和损失容忍度下的实验结果。

在下面,损失一定数量的参数报告为是最好的验证损失在所有学习率和模型结构。在嵌入层参数的数量是忽略了在我们的计算模型是相同的。
表2报告所需的最少数量的参数来实现所需的logloss阈值。从表2中,我们看到宽带近一个数量级更多的内存效率比单一款,由于交叉网络能够学习bounded-degree功能更有效地交互。

表3比较了神经模型的性能受固定内存预算。我们可以看到,DCN一直优于DNN。少的参数,交叉网络参数的数量是相媲美,在深层网络,和明显改善表明交叉网络更有效的学习有效的特征交互。大规模参数,接近一些DNN的差距;然而,DCN仍然优于由大量款,这表明它可以有效地学习一些类型的有意义的交互特性,即使是一个巨大的DNN模型也不能实现。
这里写图片描述

我们分析DCN在更多的细节说明效果从交叉网络某一个DNN模型。我们首先比较DNN的最佳性能与DCN在相同层数和层大小,然后为每个设置,我们展示如何验证logloss随着越来越多的交叉层的变化。表4显示了在DCN的logloss和DNN模型之间的差异。在同样实验设置下,从DCN中获得的最好的logloss始终优于具有相同结构的单一DNN模型。对于所有超参数,这种提升减轻了随机性效应的初始化和随机优化。

图3显示了改进我们增加交叉层随机选择设置。深层网络在图3中,有明显的改善,当1交叉层添加到模型中。随着越来越多的跨层介绍了,对于一些设置logloss继续减少,表明引入交叉项预测是有效的;为别人而logloss开始波动,甚至略有增加,这表明摘要特性相互作用引入并不有用。
这里写图片描述

我们表明,DCN执行non-CTR预测问题。我们使用了森林覆盖类型(581012样品和54特性)和希格斯粒子(11M样本和28个特征)的UCI数据集的存储库。数据集被随机分成训练(90%)和测试(10%),执行超参数网格搜索。深层的数量范围从1到10层大小从50到300。跨层的数量从4到10不等。剩余的数量单位范围从1到5的输入维度和跨维度从50到300。对DCN输入向量直接输入到交叉网络。

森林覆盖类型数据,宽带实现最好的测试精度0.9740最少的内存消耗。款和直流0.9737实现。最优hyperparameter设置8交叉54层的大小和尺寸的深层,DCN是292大小的深层,292款,4剩余单位输入维271年和287年跨维度。

希格斯粒子数据、DCN实现最好的测试logloss 0.4494,而达到0.4506DNN。最优超参数设置——东4跨层大小28日和4的深层,大小209DCN,和10的深层,大小为196DNN。DCN优于同款DNN使用的内存的一半。

结论和未来方向

识别有效特征相互作用一直是许多预测模型成功的关键。遗憾的是,这个过程通常需要人工装箱和详尽的搜索功能。DNN很流行的自动学习功能;然而,学习是隐式和高度非线性的特性,和网络可以在学习某些特性过于庞大,效率低下。深度交叉网络提出了可以处理大量的稀疏和密集的特性,和显式有限程度的交叉特征共同学习与传统深表示。交叉功能的程度在每个交叉层增加了一个。我们的实验结果证明其优越性在图象处理稀疏和密集的数据集,在模型精度和内存使用。我们想进一步探索在其他模型使用交叉层作为构建块,使有效的更深层次的交叉训练网络,调查在多项式近似交叉网络的效率,和更好地理解其与深度互动网络优化。

  • 更新时间:2018-10-19
  相关解决方案