## 心得
#1、热门物品可以欠采样降权,冷门物品可以过采样加权;
#2、负样本的多样性 - 全体物品、batch内样本;
#3、不同阶段负样本选择思路不一样,有些样本不能用于召回,
# 例如曝光未点击,理论上能曝光的都是被召回的,
# 虽然不是正样本,但也接近正样本。
#4、 双塔batch内负采样,不一定全部使用全部负样本训练模型,sgd。
#5、双塔召回样本:
#1)随机采样物料库当做负样本;
#2)参考word2vec中的正负样本采样概率;
#3)在batch内随机采样:
#注意:这里有一个点需要注意,如果你的物料比较少,且头部效应比较明显,
#这种情况下在batch随机采样为负样本很有可能采样到正样本当做负样本,所以是不适合该方案的。
#这种物料足够少的情况下,物料大部分都出现过,甚至没必要进行负采样。
#问题:但是以上三种方案都会存在,batch内随机采样会存在将正样本采为负样本的问题,
#如何解决?这里和同事一起合作尝试了三种负采样方案:
#伪负样本丢弃重采样,伪负样本反转,伪负样本反转&伪负样本赋权.
#https://zhuanlan.zhihu.com/p/631596003