当前位置: 首页 > news >正文

南京玄武网站建设网站策划要遵循的原则

南京玄武网站建设,网站策划要遵循的原则,关于单位网站建设的,闵行建设机械网站摘要 在电子商务行业#xff0c;利用丰富的历史行为数据更好地提取用户兴趣对于构建在线广告系统的点击率(CTR)预测模型至关重要。关于用户行为数据有两个关键观察结果#xff1a;i) 多样性(diversity)。用户在访问电子商务网站时对不同种类的商品感兴趣。ii) 局部激活(local…摘要 在电子商务行业利用丰富的历史行为数据更好地提取用户兴趣对于构建在线广告系统的点击率(CTR)预测模型至关重要。关于用户行为数据有两个关键观察结果i) 多样性(diversity)。用户在访问电子商务网站时对不同种类的商品感兴趣。ii) 局部激活(local activation)。用户是否点击商品仅取决于他们相关的历史行为的一部分。然而大多数传统的 CTR 模型缺乏捕获这些行为数据结构。在本文中我们介绍了一种新提出的模型即深度兴趣网络(DIN)该模型是在阿里巴巴的展示广告系统中开发和部署的。DIN以兴趣分布代表用户的不同兴趣并设计了一个类似注意力的网络结构根据候选广告局部激活相关兴趣证明是有效的并且明显优于传统模型。在训练这种大规模稀疏输入的工业深度网络时很容易遇到过拟合问题。我们仔细研究了这个问题并提出了一种有用的自适应正则化技术。 多样性(diversity)。用户在访问电子商务网站时对不同种类的商品感兴趣局部激活(local activation)。用户是否点击商品仅取决于他们相关的历史行为的一部分。DIN以兴趣分布代表用户的不同兴趣并设计了一个类似注意力的网络结构根据候选广告局部激活相关兴趣证明是有效的并且明显优于传统模型。提出了一种有用的自适应正则化技术防止模型过拟合 1.引言 广告业务每年为阿里巴巴带来数十亿美元的收入。 在每次点击费用 (CPC) 广告系统中广告按 eCPM(每千次有效成本)排名该 eCPM 是投标价格和 CTR(点击率)的乘积。 因此点击率预测模型的性能直接影响最终收入在广告系统中起着关键作用。 在深度学习在图像识别、计算机视觉和自然语言处理方面取得成功的推动下已经针对 CTR 预测任务提出了许多基于深度学习的方法。这些方法通常首先在输入上使用嵌入层将原始大规模稀疏 id 特征映射到分布式表示然后添加全连接层(即多层感知器MLP)来自动学习特征之间的非线性关系。与传统常用的逻辑回归模型相比。 MLPs可以减少很多特征工程这项工作在行业应用中是耗时耗力的。MLPs 现在已经成为 CTR 预测问题的流行模型结构。 然而在互联网规模的用户行为数据丰富的领域如电子商务行业的在线广告和推荐系统这些MLPs模型往往缺乏对行为数据具体结构的深入理解和挖掘为进一步改进留下了空间。 为了总结阿里巴巴展示广告系统中收集的用户行为数据的结构我们报告了两个关键观察结果 Diversity 用户在访问电子商务网站时对不同种类的商品感兴趣。 例如一位年轻的妈妈可能同时对 T 恤、皮包、鞋子、耳环、儿童外套等感兴趣。 Local activation 由于用户兴趣的多样性每次点击只有一部分用户的历史行为有贡献。 例如游泳者会点击推荐的护目镜主要是因为购买了泳衣而不是她上周购物清单中的书籍。 在本文中我们介绍了一种新的模型称为深度兴趣网络DIN该模型是在阿里巴巴的展示广告系统中开发和部署的。受机器翻译模型中使用的注意力机制的启发DIN 以兴趣分布表示用户的不同兴趣并设计了一个类似注意力的网络结构以根据候选广告局部激活相关兴趣。我们在实验部分 6.1 中演示了这种现象。 与候选广告具有更高相关性的行为会获得更高的关注分数并主导预测。在阿里巴巴生产的 CTR 预测数据集上进行的实验证明在 GAUC(组加权 AUC见第 3.3 节)度量测量下所提出的 DIN 模型显着优于 MLP。 在训练这种大规模稀疏输入的工业深度网络时很容易遇到过拟合问题。 实验表明通过添加细粒度的用户行为特征(例如good-id)深度网络模型很容易陷入过拟合陷阱并导致模型性能迅速下降。 在本文中我们仔细研究了这个问题并提出了一种有用的自适应正则化技术该技术被证明可以有效地提高我们应用中的网络收敛性。 DIN 在一个名为 X-Deep Learning (XDL) 的多 GPU 分布式训练平台上实现该平台支持模型并行和数据并行。 利用网络行为的结构属性数据我们采用共同特征技巧来降低存储和计算成本。 由于 XDL 平台的高性能和灵活性我们将训练过程加速了大约 10 倍并以高效率自动优化超参数。 本文的主要贡献如下: 我们研究并总结了工业电子商务应用中互联网规模用户行为数据的两个关键结构多样性和局部激活。我们提出了一个深度兴趣网络(DIN)它可以更好地捕捉行为数据的具体结构并带来模型性能的提升。我们引入了一种有用的自适应正则化技术来克服在训练具有大规模稀疏输入的工业深度网络中的过拟合问题这可以很容易地推广到类似的行业任务。我们开发了 XDL这是一个用于深度网络的多 GPU 分布式训练平台它具有可扩展性和灵活性可以支持我们的各种高性能实验。 在本文中我们专注于电子商务行业展示广告场景中的点击率预测任务。 这里讨论的方法可以应用于具有丰富互联网规模用户行为数据的类似场景例如电子商务网站中的个性化推荐、社交网络中的提要排序等。 本文的其余部分安排如下。 我们在第 2 节讨论相关工作。第 3 节概述了我们的展示广告系统包括用户行为数据和特征表示。 第 4 节描述了 DIN 模型的设计以及自适应正则化技术。 第 5 节简要介绍了已开发的 XDL 平台。 第 6 节展示了实验和分析。 最后我们在第 7 节结束本文。 2.相关工作 CTR预测模型由浅层结构演变为深层结构特征和样本的规模同时越来越大。 随着特征表示的挖掘模型结构的设计涉及更多的见解。 作为一项开创性工作NNLM(神经网络语言模型) 提出学习单词的分布式表示旨在避免语言建模中的维度灾难。 这个想法我们称之为嵌入启发了许多需要处理大规模稀疏输入的自然语言模型和 CTR 预测模型。 LS-PLM 和 FM 模型可以看作是一类具有一个隐藏层的网络它首先在稀疏输入上使用嵌入层然后对输出施加特殊设计的变换函数旨在捕捉特征之间的组合关系。 Deep Crossing、WideDeep Learning 和 YouTube Recommendation CTR 模型通过将变换函数替换为复杂的 MLP 网络扩展了 LS-PLM 和 FM极大地增强了模型能力。它们遵循类似的模型结构结合了嵌入层(用于学习稀疏 id 特征的分布式表示)和 MLP(用于自动学习特征的组合关系)。这种CTR预测模型在很大程度上替代了人工人工的特征组合。我们的基础模型遵循这种模型结构。然而值得一提的是对于具有用户行为数据的 CTR 预测任务特征通常包含在多热点稀疏 id中例如 YouTube 推荐系统中的搜索词和观看的视频。这些模型通常在嵌入层之后添加一个池化层通过求和或平均等操作来获得固定大小的嵌入向量。这会导致信息丢失无法充分利用用户丰富的行为数据的内部结构。 神经机器翻译领域的注意力机制给了我们灵感。NMT 对所有注释进行加权求和以获得预期的注释并且只关注与双向 RNN 机器翻译任务中下一个目标词的生成相关的信息。这启发了我们设计类似注意力的结构以更好地模拟用户的历史多样化兴趣。最近的一项工作DeepIntent 还应用了注意力技术来更好地建模数据的丰富内部结构它学习将注意力分数分配给不同的单词以便在赞助搜索中获得更好的句子表示。但是查询和文档之间没有交互也就是说给定模型查询或文档表示是固定的。这种情况与我们不同因为在 DIN 模型中用户表示会随着展示广告系统中的不同候选广告而自适应变化。换句话说DeepIntent 捕获了数据的多样性结构但错过了局部激活属性而提出的 DIN 模型捕获了两者(数据的多样性局部激活属性)。 3.系统概述 广告系统的整体场景如图 1 所示。请注意在电子商务网站中广告是自然商品。 因此在没有特别声明的情况下我们在本文的其余部分将广告称为商品。 当用户访问电子商务网站时系统i) 检查他的历史行为数据ii) 通过匹配模块生成候选广告iii) 预测每个广告的点击概率并通过排名模块选择合适的可以吸引注意力(点击)的广告iii) 记录给定显示广告的用户反应。这变成了用户行为数据的闭环消费和生成。在阿里巴巴每天有数亿用户访问电子商务网站给我们留下大量真实数据。 3.1 用户行为数据的特征 表 1 显示了从我们的在线产品收集的用户行为示例。 在我们的系统中用户的行为数据有两个明显的特征 Diversity 用户对不同种类的商品感兴趣。Local activation 只有一部分用户的历史行为与候选广告相关。 3.2 特征表示 我们的特征集由稀疏 id 组成类似于传统的行业设置。 我们将它们分为四组如表 2 所述。请注意在我们的设置中没有组合特征。 我们捕捉特征与深度网络的交互。 3.3 评估标准 接收者操作曲线下面积 (AUC) 是 CTR 预测面积中常用的指标。 在实践中我们设计了一个 GAUC 的新指标它是 AUC 的泛化。 GAUC 是每个用户在样本组子集中计算的 AUC 的加权平均值。权重可以是曝光次数或点击次数。 基于曝光的 GAUC 计算如下 GAUC∑i1nwi∗AUCi∑i1nwi∑i1nimpressioni∗AUCi∑i1nimpressioni(1)GAUC \frac{\sum^n_{i1}w_i*AUC_i}{\sum^n_{i1}w_i}\frac{\sum^n_{i1}impression_i*AUC_i}{\sum^n_{i1}impression_i} \qquad\qquad\qquad (1) GAUC∑i1n​wi​∑i1n​wi​∗AUCi​​∑i1n​impressioni​∑i1n​impressioni​∗AUCi​​(1)   GAUC 被实践证明在展示广告场景中更具指示性其中应用 CTR 模型对每个用户的候选广告进行排名模型性能主要通过排名列表的好坏来衡量即用户特定的 AUC。 因此该方法可以消除用户偏差的影响更准确地衡量模型对所有用户的性能。 经过多年在我们的生产系统中的应用GAUC度量被证明比AUC更稳定可靠。 4.模型架构 与赞助搜索不同的是大多数用户进入展示广告系统并没有明确的目标。 因此我们的系统需要一种有效的方法来从丰富的历史行为中提取用户的兴趣同时构建点击率 (CTR) 预测模型。 4.1基线模型 遵循流行模型结构我们的基本模型由两个步骤组成i) 将每个稀疏 id 特征转移到嵌入式向量空间 ii) 应用 MLP 来拟合输出。 请注意输入包含用户行为序列 id其长度可以是各种不同的。 因此我们添加了一个池化层eg.求和操作来处理序列并获得一个固定大小的向量。 如图 2 左侧所示基本模型在实际中运行良好现在服务于我们在线展示广告系统的主要流量。 但是深入池化操作会发现丢失了很多信息也就是破坏了用户行为数据的内部结构。 这一观察启发我们设计一个更好的模型。 4.2 深度神经网络设计 在我们的广告场景中希望模型能够根据用户的历史行为真实地揭示候选广告与用户兴趣之间的关系。 如上所述行为数据包含两种结构多样性和局部激活。 行为数据的多样性反映了用户的各种兴趣。用户对广告的点击往往源于用户的部分兴趣。 我们发现它类似于注意力机制。在 NMT(神经机器翻译) 任务中假设每个解码过程中每个单词的重要性在句子中是不同的。注意力网络(可以看作是一个特殊设计的池化层)学习为句子中的每个单词分配注意力分数换句话说它遵循数据的多样性结构。然而在我们的应用程序中直接应用注意力层是不合适的其中用户感兴趣的嵌入向量应该根据不同的候选广告而变化即它应该遵循局部激活结构。如果不遵循局部激活结构会发生什么。 现在我们得到用户(Vu)V_u)Vu​)和广告(Va)(V_a)(Va​)的分布式表示。对于同一个用户VuV_uVu​ 是嵌入空间中的一个不动点。广告嵌入 VaV_aVa​ 也是如此。假设我们使用内积来计算用户和广告之间的相关性F(U,A)Vu•VaF(U,A) V_u •V_aF(U,A)Vu​•Va​ 。如果 F(U,A)F(U,A)F(U,A) 和 F(U,B)F(U,B)F(U,B) 都很高这意味着用户 UUU 与广告 AAA 和 BBB 都相关。在这种计算方式下VaV_aVa​ 和 VbV_bVb​ 的向量连线上的任意一点都会得到很高的相关性分数。 它给用户和广告的分布式表示向量的学习带来了硬约束。可以增加向量空间的嵌入维度来满足约束这或许可行但会导致模型参数的巨大增加。 在本文中我们介绍了一种新的网络名为 DIN它遵循两种数据结构。 DIN 如图 2 的右侧部分所示。从数学上讲用户 UUU 的嵌入向量 VuV_uVu​ 变为广告 AAA 的嵌入向量 VaV_aVa​ 的函数即 Vuf(Va)∑i1Nwi∗Vi∑i1Ng(Vi,Va)∗Vi(2)\begin{aligned} V_u f(V_a)\sum^N_{i1}w_i*V_i\sum^N_{i1}g(V_i,V_a)*V_i\qquad\qquad\qquad(2)\\ \end{aligned} ​Vu​f(Va​)i1∑N​wi​∗Vi​i1∑N​g(Vi​,Va​)∗Vi​(2)​ 其中ViV_iVi​表示行为 id iii 的embedding向量, 比如good_id、shop_id等。VuV_uVu​ 表示所有行为 id 的加权和。 wiw_iwi​表示行为id iii 对候选广告 A 的整体用户兴趣嵌入向量 VuV_uVu​ 贡献的注意力分数。在我们的实现中wiw_iwi​ 是激活单元用函数 ggg 表示的输出输入为 ViV_iVi​ 和 VaV_aVa​ 。 总之DIN 设计激活单元遵循局部激活结构和加权和池化操作遵循多样性结构。据我们所知DIN 是第一个在 CTR 预测任务中同时遵循两种用户行为数据结构的模型。 4.3 数据相关激活函数 PReLU 是一种常用的激活函数在我们一开始的设置中选择定义为: yi{yi,ifyi0aiyi,ifyi≤0(3)y_i \begin{cases} y_i,\qquad if \ y_i \gt 0\\ a_iy_i, \quad if\ y_i \le 0 \end{cases} \tag{3} yi​{yi​,if yi​0ai​yi​,if yi​≤0​(3) PReLU 扮演 Leaky ReLU 的角色以避免在 aia_iai​ 较小的情况下出现零梯度。先前的研究表明PReLU 可以提高准确性但会增加一点过度拟合的风险。 然而在我们具有大规模稀疏输入 id 的应用程序中训练这种工业规模的网络仍然面临很多挑战。为了进一步提高模型的收敛速度和性能我们考虑并设计了一种新颖的数据相关激活函数我们将其命名为 Dice yiai(1−pi)yiyipi(4)pi11e−yi−E[yi]Var[yi]ϵ(5)\begin{aligned} y_i a_i(1-p_i)y_iy_ip_i\qquad\qquad\qquad(4)\\[2ex] p_i \frac{1}{1e^{-\frac{y_i-E[y_i]}{\sqrt{Var[y_i]\epsilon}}}}\qquad\qquad\qquad(5)\\[2ex] \end{aligned} ​yi​ai​(1−pi​)yi​yi​pi​(4)pi​1e−Var[yi​]ϵ​yi​−E[yi​]​1​(5)​ 训练步骤中的 E[yi]E[y_i]E[yi​] 和 Var[yi]Var[y_i]Var[yi​] 是直接从每个 mini batch 数据中计算出来的同时我们采用动量法来估计运行中的 E[yi]´E[y_i]^´E[yi​]´ 和 Var[yi]´Var[y_i]^´Var[yi​]´ E[yi]t1´E[yi]t´αE[yi]t1(6)Var[yi]t1´Var[yi]t´αVar[yi]t1(7)\begin{aligned} {E[y_i]_{t1}}^´ {E[y_i]_t}´ \alpha E[y_i]_{t1} \qquad\qquad\qquad(6)\\[2ex] {Var[y_i]_{t1}}^´ {Var[y_i]_t}´ \alpha Var[y_i]_{t1}\qquad\qquad\qquad(7)\\[2ex] \end{aligned} ​E[yi​]t1​´E[yi​]t​´αE[yi​]t1​(6)Var[yi​]t1​´Var[yi​]t​´αVar[yi​]t1​(7)​ 其中 ttt 是训练过程的小批量步数α\alphaα 是像 0.99 这样的超参数在测试步数中我们使用了运行的 E[yi]´E[y_i]^´E[yi​]´ 和 Var[yi]´Var[y_i]^´Var[yi​]´ Dice 的关键思想是根据数据自适应调整整流器点这与使用基于 yi0 的硬整流器的 PReLU 不同。这样Dice 可以看作是一个有两个通道的软整流器aiyia_iy_iai​yi​ 和基于 pip_ipi​ 的 yiy_iyi​。pip_ipi​ 是保持原始 yiy_iyi​ 的权重当 yiy_iyi​ 偏离每个 mini batch 数据的 E[yi]E[y_i]E[yi​] 时它会更低。实验表明Dice 对收敛速度和 GAUC 有明显的改进。 4.4 自适应正则化技术 毫不奇怪在使用大规模参数和稀疏输入训练我们的模型时会遇到过拟合问题。我们通过实验证明通过添加细粒度的用户访问good_ids 特征模型性能在第一个 epoch 之后迅速下降。 防止模型过拟合的方法很多例如 L2 和 L1 正则化以及 Dropout。然而对于稀疏和高维数据点击率预测任务面临更大的挑战。众所周知互联网规模的用户行为数据遵循长尾定律即大量特征ids在训练样本中出现几次而很少出现多次。这不可避免地会在训练过程中引入噪声并加剧过拟合。 减少过拟合的一个简单方法是过滤掉那些低频特征 id可以看作是手动正则化。然而这种基于频率的滤波器在信息丢失和阈值设置方面相当粗糙。在这里我们介绍了一种自适应正则化方法其中我们根据特征 id 的出现频率对其施加不同的正则化强度。 Ii{1,∃(xj,yj)∈B.s.t.[xj]i≠00,otherwises(8)I_i \begin{cases} 1,\qquad \exists(x_j,y_j)\in B. s.t.[x_j]_i \neq 0 \\ 0, \quad other\ wises \end{cases} \tag{8} Ii​{1,∃(xj​,yj​)∈B.s.t.[xj​]i​00,other wises​(8)   更新公式如式9所示。 BBB 代表大小为 bbb 的小批量样本。 ni_ii​ 是特征 iii 的频率λ\lambdaλ 是正则化参数。 wi←wi−η[1b∑(xi,yi)∈B∂L(f(xj),yj)∂wiλ1niwiIi](9)\begin{aligned} w_i \leftarrow w_i -\eta\Big[\frac{1}{b}\underset{(x_i,y_i)\in B}{\sum}\frac{\partial L(f(x_j), y_j)}{\partial w_i}\lambda\frac{1}{n_i}w_iI_i\Big] \end{aligned} \tag{9} wi​←wi​−η[b1​(xi​,yi​)∈B∑​∂wi​∂L(f(xj​),yj​)​λni​1​wi​Ii​]​(9) 等式9背后的思想是惩罚低频特征并放松高频特征以控制梯度更新方差。 自适应正则化的类似做法可以在 [17](Mu Li.et.al) 中找到它将正则系数设置为与特征频率成正比如下所示 wi←wi−η[1b∑(xi,yi)∈B∂L(f(xj),yj)∂wiλniwiIi](10)\begin{aligned} w_i \leftarrow w_i -\eta\Big[\frac{1}{b}\underset{(x_i,y_i)\in B}{\sum}\frac{\partial L(f(x_j), y_j)}{\partial w_i}\lambda n_iw_iI_i\Big] \end{aligned} \tag{10} wi​←wi​−η[b1​(xi​,yi​)∈B∑​∂wi​∂L(f(xj​),yj​)​λni​wi​Ii​]​(10)   然而在我们的数据集中使用 Eq.(10) 的正则化训练没有明显缓解过拟合。 相反它减慢了训练过程的收敛速度。 等式(10)对高频的good id比长尾的好而前者在电子商务系统中对度量和在线收入的贡献更大。 此外我们还评估了 dropout 技术发现对过拟合有轻微的改进。 5.实现 DIN 在一个名为 X-Deep Learning (XDL) 的多 GPU 分布式训练平台上实现该平台支持模型并行和数据并行。 XDL 旨在解决训练具有大规模备用输入和数百亿参数的工业规模深度学习网络的挑战。 在我们的观察中现在发布的大多数深度网络都是通过两个步骤构建的i) 采用嵌入技术将原始稀疏输入转换为低维密集向量 ii) 与 MLP、RNN、CNN 等网络进行桥接。大多数参数都集中在第一个嵌入步骤中该步骤需要分布在多台机器上。 第二个网络步骤可以在单机内处理。在这样的思想下我们以桥接方式构建XDL平台如图3所示由三种主要组件组成 Distributed Embedding Layer 它是一个模型并行模块嵌入层的参数分布在多个 GPU 上。 嵌入层作为预定义的网络单元工作提供前向和后向模式。 Local Backend 它是一个独立的模块旨在处理本地网络训练。 这里我们用了开源的深度学习框架如tensorflow、mxnet、theano等。通过统一的数据交换接口和抽象我们很容易在不同类型的框架中集成和切换。 后端架构的另一个好处是可以方便地轻松跟进开源社区并利用这些开源深度学习框架开发的最新发布的网络结构或更新算法。 Communication Component 它是基本模块有助于并行嵌入层和后端。 在我们的第一个版本中它是用 MPI 实现的。 此外关于数据的结构属性我们还采用了共同特征技巧[8]。 读者可以在[8]中找到详细的介绍。 [8] Learning piece-wise linear models from large scale data for ad click prediction 由于 XDL 平台的高性能和灵活性我们将训练过程加速了大约 10 倍并以高调优效率自动优化超参数。 6.实验 6.1可视化DIN 在 DIN 模型中稀疏的 id 特征被编码为嵌入向量。 在这里我们随机选择了 9 个类别(连衣裙、运动鞋、包包等)和每个类别的 100 件商品。 图 4 展示了基于 t-SNE 的商品嵌入向量的可视化其中形状相同的点对应相同的类别。 它清楚地显示了 DIN 嵌入的聚类特性。 此外我们以预测方式对图 4 中的点进行着色假设所有商品都是年轻母亲的候选商品(表 1 中的示例)它们按预测值着色(红色的 CTR 比蓝色的高)。 DIN模型正确识别满足用户多样化兴趣的商品。 此外我们深入研究 DIN 模型以检查工作机制。 如第 4.2 节所述DIN 设计注意单元以局部激活与候选广告相关的行为。 图 5 说明了激活强度(注意力分数 www)。 正如预期的那样与候选广告高度相关的行为会得到高度关注。 6.2 正则化 基线模型和我们提出的 DIN 模型在训练过程中都遇到过拟合问题并添加了细粒度特征例如 good_id 特征。 图 6 说明了有/没有细粒度 good_id 特征的训练过程清楚地说明了过拟合问题。 我们现在通过实验比较不同类型的正则化。 Dropout 随机丢弃每个样本中 50% 的 good_id。Filter 按样本中的出现频率过滤good id只留下最频繁的good id。 在我们的设置中剩下前 2000 万个good的 ID。L2 regularization 参数λ并设置为0.01。Regularization in DiFacto DiFacto 提出了 Eq.(10) 的这种方法。 参数λ并设置为0.01。Adaptive regularization 我们提出的方程式方 (9)。 我们使用 Adam 作为优化方法。 参数 λλλ 并设置为0.01。 比较结果如图6所示。验证结果证明了我们提出的自适应正则化方法的有效性。 使用自适应正则化技术进行训练具有细粒度good_id 特征的模型与没有它的模型相比在 GAUC 上实现了 0.7% 的增益这是 CTR 预测任务的显着改进。 Dropout 方法导致第一个 epoch 的收敛速度较慢而在第一个 epoch 完成后过拟合得到了一定程度的缓解。 频率滤波器在第一个epoch保持与无操作设置相同的收敛速度。 在第一个 epoch 之后过拟合也得到了缓解但仍然比 dropout 设置差。 在自适应正则化设置中我们几乎看不到第一个 epoch 之后的过度拟合。 当第二个 epoch 完成时验证集上的损失和 GAUC 几乎收敛。 Eq.(10) 的 DiFacto [17] 中的正则化对高频的 good id 设置了更大的惩罚。 然而在我们的任务中高频的good id 更自信地刻画了用户的兴趣而低频good id 会带来很多噪声。 频率滤波器的实验可以说明这一点。 我们的方法通过应用商品频率的常规倒数来软化低频商品 ID。 6.3 DIN与基线模型比较 在阿里巴巴的生产性展示广告系统上测试模型性能。 训练和测试数据集都是从系统日志生成的包括曝光和点击日志。 我们收集两周的训练样本和第二天的测试样本这是我们系统中的一个高效设置。 基本模型和我们提出的 DIN 模型都是在表 3.2 中描述的相同特征表示上构建的。 参数单独调整报告最佳结果。 GAUC 用于评估模型性能。 结果如表 3 和图 7 所示。显然使用自适应正则化训练的 DIN 模型明显优于基础模型。 具有自适应 reg 的 DIN 仅使用基本模型的一半迭代来获得基本模型的最高 GAUC。 最终它比基础模型实现了 1.08% 的 GAUC 增益这对我们的生产系统来说是一个很大的改进。 与 DIN 相比Dice 获得了 0.23% 的 GAUC 增益。 随着对用户行为数据结构的更好理解和利用DIN模型表现出更好的捕捉用户和候选广告非线性关系的能力。 7.结论 在本文中我们专注于电子商务行业展示广告场景下的CTR预测任务其中涉及互联网规模的用户行为数据。 我们揭示和总结了数据的两个关键结构多样性和局部激活并设计了一个名为 DIN 的新模型更好地利用了数据结构。 实验表明与流行的 MLPs 模型相比DIN 带来了更多的可解释性并实现了更好的 GAUC 性能。 此外我们研究了在训练此类工业深度网络中的过拟合问题并提出了一种自适应正则化技术可以在我们的场景中大大减少过拟合。 我们认为这两种方法可能对其他工业深度学习任务具有指导意义。 与图像识别和自然语言处理领域具有成熟和最先进的深度网络结构不同具有丰富互联网规模用户行为数据的应用仍然面临着许多挑战值得付出更多努力。 研究和设计更常见和有用的网络结构。 我们将继续关注这个方向。
http://www.tj-hxxt.cn/news/218344.html

相关文章:

  • 精品建站泉州网页建站模板
  • 织梦网站名称修改建立网站准备工作
  • 瓯北网站制作公司帝国网站管理系统后台eclassconfig.php不存在
  • 咋创建自己的网站手表交易网站
  • 江苏省交通建设厅门户网站wordpress c7v5
  • 安徽徐州网站建设公司网站开发报价文件
  • asp 做网站那种类型的网站可以自己做也可以赚钱
  • 票务网站开发端口房地产销售工作总结
  • 网站建设与维护前景网站外链建设设计
  • 狮山做网站郑州贴吧
  • 网站建设哪家服务周到wordpress古腾堡编辑器如何使用
  • 临沂网站建设推广网站要怎么样做排名才上得去
  • 沈阳怎么做网站物流公司网站源码
  • 网络营销中网站建设的策略北京尚层装饰总部电话
  • 网站旁边的小图标怎么做的一级直播
  • 阜阳集团网站建设唐山建设网站
  • wordpress安装到网站天眼查企业信息查询平台官网
  • app怎样下载安装广州建站优化公司
  • php和asp.net建立电商网站比较网站建设咨询什么
  • 创研科技网站南昌营销网站开发
  • 上海市政建设有限公司网站网站开发需多少钱
  • 名站在线网站做彩票
  • 直播网站开发需要多少钱自己开发一个app
  • 做网站云服务器还是云虚拟主机河北利用关键词优化网页
  • 做一个什么样的网站WordPress弊端
  • 企业信息网站模板网络科技工作室起名
  • 开通网站空间在哪个网站注册公司
  • 网站怎么申请怎么注册mt4外汇金融网站建设
  • 怎么免费注册网站上海网站建设设计制作
  • 网站建设论文 优帮云中信建设有限责任公司官网英文