张虾米试错 - 简书

IP属地：北京

Transformer细节整理
本文是对transformer的细节进行整理，主要有以下问题： Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进...

9.1 4442 1 7
论文阅读：Alibaba-Deep Interest Evolution Network for Click-Through Rate Prediction
上篇介绍了Alibaba-Deep Interest Network for CTR Prediction，本篇介绍的内容可以说是Alibaba...

0.2 1631 3 7

特征归一化/标准化
1. 为什么要做特征归一化/标准化？数据预处理中，通常会用到特征归一化，为什么要做归一化呢？一般有两点：消除特征间单位和尺度差异的影响特征间...

5.6 984 0 6
读《万历十五年》
决定开始写读后感原因有二：1. 锻炼自己写作与思考；2. 总结自己收获了什么。以前看完一本书既不总结也很少记录点什么（除了那些印象深刻特别有感触...

0.7 131 0 6
《活出生命的意义》
本篇是一些摘录： 1. 生活态度我们期望生活给予什么并不重要，重要的是生活对我们有什么期望。我们真正需要的，是在生活态度上来个根本的转变。我...

6.0 395 0 4
L1、L2正则化
正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。最基本的正则化方法是在原目标（代价）函...

5.1 498 0 4
注意力机制
目录 Attention机制由来 Encoder-Decoder 框架最常见的attention模型——Soft Attention 其他at...

0.4 19995 0 4

Bert细节整理
本文是对bert的细节进行整理，分成3个部分的问题：目录输入与transformer相比输入有什么不同？ bert的3种embedding...

0.2 7763 3 3
wide&deep VS deepFM
wide&deep和deepFM在推荐搜索中比较常见，这里对原理不做过多介绍，主要想说下特征处理。 1. wide&deep 模型结构 wide...

0.3 623 0 3