DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks
针对神经网络中的全连接层、卷积层和递归层,设计了dropout方法,并证明了该方法的有效性。作为对重复层和卷积层的一种吸引人的选择,完全连接的自我关注层出人意料地缺乏一种特定的退出方法。本文探讨了将transformer中的注意权规则化的可能性,以防止不同的上下文化特征向量相互适应。对多种任务的实验表明,DropAttention下降可以提高性能,减少过拟合。
上面的是他论文中的大概解释,但是个人觉得他做的东西贡献不大,可能用于调参是个不错的选择?
总共两种dropout方式还是挺水的