本文是对transformer的细节进行整理,主要有以下问题: Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进...
上篇介绍了Alibaba-Deep Interest Network for CTR Prediction,本篇介绍的内容可以说是Alibaba...
1. 为什么要做特征归一化/标准化? 数据预处理中,通常会用到特征归一化,为什么要做归一化呢?一般有两点: 消除特征间单位和尺度差异的影响特征间...
决定开始写读后感原因有二:1. 锻炼自己写作与思考;2. 总结自己收获了什么。以前看完一本书既不总结也很少记录点什么(除了那些印象深刻特别有感触...
本篇是一些摘录: 1. 生活态度 我们期望生活给予什么并不重要,重要的是生活对我们有什么期望。 我们真正需要的,是在生活态度上来个根本的转变。我...
正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模型复杂度,减小过拟合。最基本的正则化方法是在原目标(代价)函...
目录 Attention机制由来 Encoder-Decoder 框架 最常见的attention模型——Soft Attention 其他at...
本文是对bert的细节进行整理,分成3个部分的问题: 目录 输入 与transformer相比输入有什么不同? bert的3种embedding...
wide&deep和deepFM在推荐搜索中比较常见,这里对原理不做过多介绍,主要想说下特征处理。 1. wide&deep 模型结构 wide...