SIGIR 2022 | 多场景软件系统优化在支付宝数字金融搜索的应用

发布时间:2025/10/18 12:17 来源:宁国家居装修网

同业金额设为 [9]。后面是几种常只见的解决问题多侦查的作法律条文：

硬集合发放者 (hard emb sharing)[1] 是最简单的数学作法律条文，它通过发放者详只见层自学内在相关普遍性。然而，它们饱受 “跷跷板物理现象”[20]—— 一项侦查的改进多半可避免其他一些侦查的普遍高效率退立体化。 MMOE 通过 gate 三相关联程序对各个领域专家 (experts) 同步进行小较重新组合，但各个领域专家两者之间是无交互的，且才有零散普遍性，所有的侦查都时会用到所有的领域专家，这使得数学作法律条文现有变大后，演算推理普遍高效率下滑突出。 PLE [20] 加进渐进的单端口程序并将 experts 分配给发放者和特定的侦查，这更严较重了自荐系统中时会的跷跷板物理现象，但是它须要人工同义定所有的在支线本体，如哪个领域专家是公用或发放者的，当布景和侦查关系比较最简单时，这是比较比较最简单的。

综上，现有作法律条文的缺陷是：

只关注单布景下的多侦查自学 (SSLCompanyMTL)，或纯粹的多布景数学作法律条文 (MSLCompanySTL)。没有必要考虑到多布景 + 多侦查的情形。这就可避免了这类布景丰富的字符串资讯，时会受到跷跷板和输移往制约。为每个布景 / 侦查开发数学作法律条文，开发和维护价格都时会大大减低。布景 / 侦查两者之间实际上关联和区别，而以往的数学作法律条文都通过人工同义定在支线本体来复用。但这须要大量的实验者和人工调参，是否实际上最简单有效性的终端领域专家在支线举例来说？

我们将从这几种在支线的实用性和劣势总结如下：

三、支线性方案设计者

单打独斗：各布景实际上很小的不同

我们可以将投资公司布景抽象成如下树状本体，分别是布景层，饰品层和侦查层。

布景层；大要是人群两者之间不同。背探量和估值突出比；大探更是大，专业人士其他用户更是多，但交集其他用户较寡。饰品层；大要实际上 Query 不同普遍性，其原因是探究 query 即时会演算的完全相同，探 "投资公司","股票交易型投资公司" 等泛其所用法律条文时会即时会同特性投资公司饰品，而其他投资公司用法律条文则时会即时会投资公司电子产品卡。侦查层；大要实际上侦查两者之间不同。投资公司购买是较重各项政策全过程，其他用户时会有规律对比多只电子产品，且购后都时会有规律探究和页面，关注价格走势和其他资讯。页面和转立体化率皮尔逊相关普遍性较低。

布 3：相符的业务中时会比较最简单的布景和一般来说造就的移往根本原因

而用到 PLE 锻炼分立数据资料 + 数学作法律条文，其特性不如在各个布景上独立锻炼的 PLE 数学作法律条文，实际上一定的跷跷板效理应。因此，如何设计者一个分立数学作法律条文来解决问题多布景和多侦查？如何终端自学布景侦查两者之间的关联，并使得各个布景都有正向收益？

本体上数学作法律条文本体

我们针对如上的布景树本体，构建多层复合的，本体完全相同的 AESM 在支线。在下布中时会较重构中时会，相符布景中时会的布景层 / 饰品层 / 侦查层，都由两层 AES 层来复合三维。

布 5：AESM ；大本体布

AESM 将多布景和多侦查缺陷普遍认为同一缺陷，并加进一小组驱动程的单将它们融汇到一个分立的小组件中时会。与 PLE 完全相同，AESM 借助CE且紧凑的驱动程的单，分别同步进行完全相同布景和侦查下，设为发放者和公用的领域专家。

如下布 c 右图，上面完全相同颜色的 E 代详只见领域专家被完全相同的侦查所用到: E1, E2 被 A 侦查用到， E2 和 En 被 B 侦查用到。E2 为 share 领域专家，其他为 specific 领域专家。

为了简立体化，我们首再介绍单独的多布景 / 多侦查层，并谈论如何动手终端领域专家举例来说；不足之处再谈论才有多层侦查设为的情形。

发放者填充层

与其他数学作法律条文完全相同，我们设计者了发放者填充层，将底部的类别和数量级不同之处转换成为连续的不同之处矢量。假定有小组不同之处，例如，其他用户不同之处（如成年、普遍性别）、饰品不同之处（如价格、品牌）和道德上不同之处（如 q2i,u2i 等）。对于集合的比对，首再将数量级不同之处转换成为类别特性，然后对类别不同之处同步进行 one-hot 处理全过程，如下右图：

其中时会，

详只见示其他用户不同之处的集合，

详只见示不同之处矢量的裁剪；其他特性的不同之处或多或寡同其他用户的不同之处或多或寡；将处理全过程后的各种特性不同之处同步进行裁剪，赢取输入

多布景层和领域专家举例来说

在发放者填充层后来，

作为不足之处层的输入，经过多层领域专家举例来说层赢取最后的输显露。这里的一个外围缺陷是，如何同步进行领域专家举例来说？

整个全过程用下布详只见示如下：

布 7：AESM 的探究和零散立体化理论上程序

为最简单起只见，我们只展出一层的举例来说全过程。假定有 n 个领域专家和 m 个输显露（即 m 个 gate）的布景层，我们首再借助支线普遍性变换来计算每个布景的三相关联矢量如下：

其中时会，

是第 j 布景和第 k 个领域专家关于输入较重构的相关普遍性分数；

是可自学集合，

是布景 embedding 详只见征，

是贝塞尔信道（

）。

行矢量

是举例来说领域专家模块的极其较重要性。我们动手显露如下假定

如果一般来说大于其他矢量，则详只见示，第 k 位的领域专家更是多可能被分类法律条文为第 j 布景的 specific 小组。如果中时会的值都一般来说接近，则第 k 个领域专家可能涵盖所有布景两者之间的发放者资讯。

因此，我们首再对矩阵执行逐行 softmax 转换 G 如下：

然后，对于第 j 布景，我们形成一个 one-hot 布景矢量

，其中时会只有第 j 个元素为 1。如上所述，可以根据

和

两者之间的完全相同普遍性来基准第 k 个领域专家是第 j 个布景特有领域专家的均值。

完全相同地，我们还为第 j 个布景加进了一个外匀分布区的矢量

，

可以根据

和

两者之间的完全相同普遍性来基准第 k 个领域专家是第 j 布景发放者领域专家的均值。

因此，举例来说布景特定和布景发放者领域专家的全过程形的单立体化地描述如下：

其中时会

和

分别为第 j 个布景的特定和布景发放者设为的领域专家 index，测度 TopK 是返回 top- 索引的集合转换值，( ) 计算 Kullback-Leibler 散度。

用到

和

来更是新近三相关联矢量

，借助于零散领域专家在支线：

然后，将三相关联二阶矩阵

和领域专家输显露

输入标准规范的 MMoE 模块赢取这个布景层的输显露：

综上，本作法律条文极其较重要的是两点：

音爆探究：在 gate 上减低贝塞尔信道，使得数学作法律条文去自学完全相同领域专家的小较重新组合造就的特性，进而举例来说最佳的领域专家小较重新组合，音爆大幅扩大了领域专家小较重新组合的探究高效率。信道高强度是超参，无限大的信道等价于在领域专家维度同步进行随机 dropout，时会一定某种程度制约后面的 loss 理论上柯西，而极小的信道起还好探究特性。因此信道的受制于意图是不足之处进一步构建的正向。如，随着锻炼时限增大，领域专家举例来说慢慢地有利于，那么信道高强度理应慢慢地变小。零散立体化领域专家举例来说：通过计算三相关联列矢量与 onehot 矢量与外匀矢量的 KL 散度，使得 gate 举例来说最适合于的发放者和公用领域专家，并借助于领域专家在支线的零散立体化，并借助于了零散抑制。这相当大降低了角度看普遍性，同时数学作法律条文现有变大，也不能减低演算推理时延。分散普遍性理论上：在以上程序的细化，进一步减低基于 KL 散度的理论上。所谓上就是让完全相同布景 / 侦查的比对，尽可能举例来说同一小组一个系统领域专家。这种基于距离量值的理论上，完全相同比对聚类的作用，但其借助于是更是易懂的，可以与尺度自学数学作法律条文独自一人技术的发展软件。

在多侦查其余部分，我们集合上述布景层的输显露

，我们也借助完全相同的举例来说全过程来借助于多侦查自学。此处不再赘述。

多层复合和扩展

此处可参考 AESM ；大数学作法律条文布。

在实际技术的发展中时会，一个布景可能很比较最简单，并且在所谓上详只见现显露层次本体 [11，15]。例如我们的投资公司探究布景，通过复合多个布景层和侦查层，我们的数学作法律条文 AESM 可以十分便捷地处理全过程这种比较最简单的布景。这与尺度在支线（DNN）的占到有优势一所发，通过更是深的尺度，而不是间距，能够以更是寡的集合详只见达更是比较最简单的缺陷。

例如在有层的布景，每层有 N_i 个布景比较最简单系统中时会，只须要调整每一层的输入S_i ，最终我们可以对n_1n_2…n_L_s个可分布区景同步进行三维。当我们用到标准规范的 MMoE 驱动程的单时，每一层我们须要完全相同的领域专家数量。由于

，可以最大限度大量的计算价格。

此外，我们依然可以将多侦查层复合在独自一人，自为了让地为更是高阶别的侦查同步进行不同之处提取。与多布景完全相同，因为在第一个多侦查后来，每个侦查都有完全相同的输入层。在不足之处的多侦查层中时会用到完全相同的领域专家本体，用到完全相同的输入同步进行领域专家举例来说。当层数大于 1 时，我们用到前一层的输显露作为后一层的输入。

数学作法律条文构建

对于数金探究的精排数学作法律条文，举例来说 sigmoid 作为抑制变量。因此，第

个较重构的交叉熵伤亡如下：

如上一节介绍，我们减低专用伤亡来提高布景 / 侦查特定的领域专家举例来说。具体情形来说，对于第

的多布景层，可减低后面的 loss 理论上：

其中时会

是第

个多布景中时会的输显露层。比如说，对于第

的多布景层，可通过

提高锻炼全过程中时会领域专家的举例来说各项政策；比如说多侦查层中时会发放者领域专家的伤亡变量详只见示为

；示范赢取，专用伤亡变量

判别如下：

本体上的伤亡变量可判别为：

四. 支线仿真和降温实验者

为了解析 AESM 的有效性普遍性，我们在多集合据资料集上，将 AESM 于其他多布景 / 多侦查数学作法律条文同步进行对比。并动手了大量降温实验者。

实验者设计者

离支线实验者中时会共查阅了两个相符布景中时会的数据资料集，分别是阿里巴巴集团和速卖通数据资料。

阿里巴巴集团数据资料集：查阅了从 2021 年 11 年末 15 日到 11 年末 30 日，两周其他用户阿里巴巴集团探究的道德上副本。可分；大探 (HP) 和背探 (VP) 两个布景（channel），同时每个 channel 中时会还可以进一步划可分同特性投资公司（BS）和投资公司电子产品（RI) 两个饰品（这里被抽象为)。因此，整集合据资料集通过 channel 和 domain 正则可分四个具体情形的布景。根据道德上数据资料的日期将数据资料集切可分锻炼集、解析集和验证集：11 年末 15 日 - 11 年末 28 日为锻炼数据资料，2021 年 11 年末 29 日为解析数据资料，2021 年 11 年末 30 日为验证数据资料。同步进行页面率和转立体化率的预估。掩蔽到两集合据资料分散的数据资料分布区不平衡状态。例如，外 VPCompanyBS 布景中时会的展出次数在所有布景中时会占到比 6.44%，大其余部分页面牵涉到在布景 VPCompanyRI，反而占到 82.33%。

速卖通数据资料集：比如说此数据资料集实际上多布景（按其他用户国籍划分）和多侦查的设为。在本次实验者中时会，举例来说了、、和四个布景的数据资料集。因为早期数据资料集只涵盖锻炼集和验证集，我们随机抽取 50% 的早期验证数据资料作为解析集。

详只见 2：速卖通数据资料集统计数字情形

我们将 AESM 与两类弧数学作法律条文同步进行对比：

三门感知 (gate-base) 数学作法律条文，它用到三相关联程序来处理全过程多布景或多侦查缺陷，包括 MMoE [11]、HMoE [8]、和 PLE [20] MMoE [11] 借助多三门混和领域专家隐的单三维领域专家两者之间的关系，来自多个三门的原属详只见示可以分别转换成为多个布景 / 侦查预报层； HMoE [8] 用到梯度大块熟练显的单编码布景两者之间的关联关系，HMoE 加进两个才有单独集合的数学作法律条文来构建 CTR 和 CVR 侦查； PLE [20] 是另一种再进的 MMoE 变体，它将领域专家可分侦查特定小组和侦查发放者小组，可避免了完全相同侦查两者之间的输移往和跷跷板物理现象；无三门数学作法律条文，如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。 Hard Sharing [1] 是一个最简单但广为用到的数学作法律条文，通过发放者的详只见层对发放者的资讯同步进行编码； Parallel DNN 是在必需 DNN 上减低为了让多布景或侦查的转换成而来； Cross-Stitch [13] 通过支线普遍性交叉在支线将多个在支线本体同步进行小较重新组合，主要用途自学侦查详只见示； STAR 加进复合紧致本体，由发放者中时会心在支线和布景特定在支线小顾名思义；

借鉴 ESMM [12] 的思想，我们构建整个空两者之间中时会的 CTR 和 CVR，即 = × 。用到 auc 评估数学作法律条文的普遍高效率。为了保证公平，我们动手了一般而言社时会活动：

由于上述的弧数学作法律条文中时会并不必同时解决问题 MSLCompanyMTL。我们在弧数学作法律条文上同步进行本体扩展，来为了让我们多布景多侦查的要求。例如，对于多布景数学作法律条文 STAR，我们在侦查级借助于另一个复合紧致本体。对于多侦查数学作法律条文 PLE，在代之以的机构上再叠加一层 PLE 本体来解决问题多布景缺陷。所有的弧数学作法律条文同 AESM 一所发用到原属布景数据资料同步进行锻炼，在支线的本体的尺度及举例来说领域专家的集合等超参外保持一致。

弧特性对比

详只见 3 和详只见 4 是阿里巴巴集团和速卖通数据资料集上完全相同数学作法律条文的普遍高效率对比。两个详只见中时会的结果都详只见明我们提显露的数学作法律条文 AESM 在所有才时会无论如何强于所有弧侦查。尤其数据资料零散度最高的；大探同特性投资公司，降低更是为相当大。这详只见明数学作法律条文能够为了让完全相同的配置的布景和侦查。但其他数学作法律条文则不一定，例如在 CTR 侦查中时会，PLE 在 VPCompanyBS 布景中时会的详只见现强于 MMoE，但在 HPCompanyBS 布景中时会的详只见现不如 MMoE。

与多布景和多侦查设为中时会锻炼的数学作法律条文相比较，所有弧都受到来自完全相同布景的输移往的制约。例如，它们在 HPCompanyBS 上的普遍高效率不如在实体布景中时会锻炼的数学作法律条文。然而，AESM 在所有布景中时会都强于所有实体布景数学作法律条文，详只见明 AESM 可以好处地借助布景关系，可避免输移往。

详只见 3：完全相同数学作法律条文在阿里巴巴集团数据资料集上普遍高效率对比

详只见 4：完全相同数学作法律条文在速卖通数据资料集上普遍高效率对比

降温深入研究

为深入研究每种构建的制约，加进两种完全相同的 AESM 变体同步进行降温深入研究：（1）无贝塞尔信道和专用伤亡（2）无专用伤亡。从下详只见的结果可以看只见，添加贝塞尔信道和专用伤亡后，所有侦查上普遍高效率外有下滑。

对比（1）（2）两种变体 AESM，可以看只见贝塞尔信道在所有的布景中时会外有着良好的详只见现。这意味着合理的反转给数学作法律条文造就了更是为广为的探究空两者之间，赢取更是为精细的数学作法律条文集合。

专用伤亡可以引导领域专家在支线举例来说更是接近假定的分布区。下布的结果详只见示，当删除专用 loss 时，布景和侦查的普遍高效率外时会下滑。我们进一步地绘制了三相关联矩阵下，选定的布景 / 侦查分布区与假定分布区（独热和外匀分布区）两者之间的 KL 散度的不同。可以看只见减低专用伤亡后，两种分布区两者之间的 KL 散度伤亡是慢慢地下滑的。仅仅，加入专用伤亡后数学作法律条文可以零散地同步进行领域专家举例来说。

布 8：零散立体化专用 loss 的锻炼柯西对比

领域专家举例来说的三维

我们三维了阿里巴巴集团数据资料分散，布景 / 侦查的 specific/share 小组的领域专家借助率，即 gate 抑制某种程度。为了最简单起只见，每个层（即通道、域和侦查）都涵盖两层领域专家举例来说层。

特定领域专家集和发放者领域专家集都配置为外举例来说一位领域专家 (topk=1)。下布显示，在 channel 级别，发放者同一特性通道的布景才有更是完全相同的分布区。这详只见明我们的数学作法律条文可以动态地精心设计比较最简单的发放者资讯和布景两者之间的不同。一般来说来说，PLE 以静态形的单判别特定 / 发放者领域专家。在侦查多方面，我们掩蔽每项侦查，几乎在特定 / 发放者小组中时会举例来说一位领域专家，这意味着我们的数学作法律条文也可以柯西到 PLE 设为。

这些掩蔽结果详只见明，AESM^2 是一种更是CE的数学作法律条文，可以为了让完全相同布景 / 侦查的完全相同本体。

布 9：完全相同一般来说领域专家的被举例来说均值三维对比

AESM 终端领域专家举例来说的谈论

为了定普遍性的谈论这个缺陷，就须要再探讨多布景和多侦查缺陷的所谓区别是什么？

多布景和多侦查，都仅同义多要能缺陷的一个子集。笔者认为，多布景缺陷所谓上要求角度看普遍性，帕累托一个系统中时会的能源是数学作法律条文集合的代管，任何一个事件（如页面和转立体化），不可能在两个布景同时牵涉到；而多侦查缺陷恰恰相反，帕累托一个系统的能源理论上，；大要是集合权较重本身，是梯度争端可避免的集合更是新近正向的争端，但并不特别强调角度看普遍性：通常数学作法律条文集合量越加大，帕累托一个中心越加向前，但却时会损伤角度看普遍性，这一点可通过下布的实解析明，来自文献 [13]。

集合量时会相当大地制约多侦查数学作法律条文的角度看普遍性和高效率。因此要想同时解决问题多布景多侦查，就需要平衡状态高效率（帕累托一个中心）和角度看普遍性，它们是天然争端的。解决问题这一缺陷最直观的思路，是通过 bottleneck 在支线本体，在东边输显露层减低数学作法律条文集合，降低帕累托一个中心；而在详只见层受制于零散普遍性理论上，使得详只见层降低角度看普遍性。

值得同义显露，如果只是解决问题多侦查构建缺陷，时会有很多作法律条文可以动手到。但 AESM 作法律条文却通过相当最简单的形的单，通过受制于信道和零散立体化，在完全相同 MMOE 的小组件下，借助于了完全相同 bottleneck 和 dropout 的思路来借助于领域专家举例来说，让集合尽量在详只见层而不是上层借助于发放者，进而一定某种程度上平衡状态了多布景和多侦查分别要求的角度看普遍性和帕累托一个中心的缺陷。

五、的业务特性和在支线实验者

支线上推全实验者

我们在 2022 年 1 年末底开始，与四个布景的支线上弧（基于道德上碱基的 DIN+ESMM) 同步进行了两周的在支线 A/B。极其较重要在于强于其他所有布景，并同步进行了推全。

一般而言是在各个布景各自的降低（其中时会在；大探同特性投资公司和；大探投资公司电子产品掩蔽到 darwin 实验者的置信降低）：

一般而言是所有布景汇总后，实验者桶相比较可视桶本体上的降低：

支线上降温实验者

尽管我们动手了扎实的离支线降温实验者。但与强 baseline，如双层 PLE 等作法律条文同步进行支线上 AB 对比，则更是能反映支线性和系统的相符普遍高效率。

为解析 AESM 数学作法律条文有效性普遍性，我们在；大探、背探的同特性投资公司和投资公司电子产品四个布景分别设计者如下四小组实验者：

通过实验者我们发现，对投资公司探究所有的爆出页面道德上数据资料来看，AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三个同义标上相比较其他弧有相当大降低。其中时会极其较重要同义标 CTCVR，相比较分立锻炼 + 单层 PLE 降低 4.7%。

以 CTCVR 为 KPI，修理到完全相同布景的的特性对比。背探投资公司电子产品作为；大力布景，其他布景为其造就的占到有优势微乎其微，但是它可以强于地为其他零散布景发放移往特性，具体情形只见下布：

我们将以上数据资料绘制到下布中时会，可更是明确地体现 AESM 的占到有优势:

布 10：通过支线上降温实验者，与其他作法律条文的特性对比

六、总结和不足之处改进

现阶段 AESM 现在在数金探究的投资公司；大布景同步进行了全量布署。这可能是第一个在分立小组件内，同时解决问题 MSL 和 MTL 缺陷的作法律条文，并才有一般而言实用性：

大大减缓比较最简单布景两者之间的输移往物理现象，以借助于一个系统的资讯发放者。实际的业务中时会，很多布景可以小其组织为层次本体，对其同步进行层叠的单的三维，可大大减缓普遍高效率，并相当大减缓计算价格。通过音爆探究，零散立体化领域专家举例来说和分散普遍性理论上的程序，借助于了终端提取布景 / 侦查 specific 和 share 比对级领域专家举例来说算法律条文。具体情形的，基于 multi-gate 混和领域专家的零散立体化本体，借助于自为了让本体自学，并设计者了专用伤亡变量来监督锻炼全过程。

值得同义显露，AESM 不足之处有一些值得此后探究的正向。

AESM 通过音爆降低探究空两者之间，但音爆高强度作为超参难以举例来说，理应探究和实验者更是硬朗和鲁棒的领域专家探究形的单。当须要减低布景 / 侦查时，之前数学作法律条文须要较重新近设计者和锻炼。如何构建 AESM，使得其能够进一步为了让动态和异构的布景侦查本体，并好处的解决问题冷启动缺陷，再一是一个有单打独斗的缺陷。我们在侧向领域专家多方面动手了终端领域专家举例来说，但在侧向（尺度）上也实际上终端领域专家举例来说的可能普遍性必要普遍性：终端残差在支线，再一是一个令人兴奋的正向。

AESM 和谷歌最新近的 MOE 驱动程的单 Pathways 有一些完全相同普遍性，能帮助我们借助于更是多异构侦查的分立锻炼和构建。不足之处我们时会积极地探究新近的改进蓝图。欢迎行业同仁共同完成谈论。

七、参考文献

[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.

[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.

[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information Company Knowledge Management. 3828–3837.

[4] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.

[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.

[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).

[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).

[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information Company Knowledge Management. 2605–2612.

[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.

[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.

[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery Company Data Mining. 1930–1939.

[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research Company Development in Information Retrieval. 1137–1140.

[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences

。

武汉看癫痫到哪个医院好
四川皮肤病治疗方法有什么
买什么滋补品补气血好
海南男科检查哪家医院好
成都试管婴儿医院排行榜
假过敏真新冠？会让你把“阳了”误当成过敏，新一波病毒真奇葩！
耳鼻喉科
咳嗽有痰吃什么药效果好
端午防疫三大误区，九成人第一个就中招！千万别被这些新冠的误区坑害了！
尿酸过高

上一篇： 7.16竞彩推荐抗日单精选为先票单关附赛事解析

下一篇： GPD官方将要与V社合作优化WIN Max 2掌机AMD版的Steam OS体验