## 心得
#1、通俗理解 : 我们网络中的每个专家都是可以学到一些关于多个任务的各自的专业知识,
# 而我们用多个门控网络,就相当于起到了一个Attention的作用。
#2、这里要注意一点就是: 我们的input是分别作为各个专家和gate门控网络的输入,
# 各个专家和门控网络分别独自初始化以及训练。
#3、MMOE(Multi-gate Mixture-of-Experts)是在MOE的基础上,使用了多个门控网络,
# k 个任就对应 k 个门控网络。
#4、MMOE是MOE的改进,相对于 MOE的结构中所有任务共享一个门控网络,MMOE的结构优化为
# 每个任务都单独使用一个门控网络。这样的改进可以针对不同任务得到不同的 Experts 权重,
# 从而实现对 Experts 的选择性利用,不同任务对应的门控网络可以学习到不同的Experts 组合模式,
# 因此模型更容易捕捉到子任务间的相关性和差异性。