shudaxu - 简书

shudaxu

IP属地：上海

关于证实与证伪
其实，能否/是否被“证实/证伪”都是一些相对的状态与概念。很多“科学”的结论与认知存在时间上的局限性。 1、无法证实，只能证伪 Causal i...

2470 0 0
Types of Generalization，Can Memorization Generalize?
问题1：Memorization can't generalize？由wide&deep文中定义：Memorization can be lo...

352 0 0

分与合
大部分的拆分与组合，本质都是在trade off甚至不少明星大佬的离婚与结婚，也是在权衡即时的付出与未来潜在的收益（笑）模型拆分训练是否应该...

267 0 0
线性系统在广告产品中的发展
在各种体系设计与问题建模中，线性系统往往能帮助我们做很多简化，使得很多问题的求解上变得更容易，并且有更好的解析解，更优的bound，更好的收敛理...

380 0 0
关于工业界variance的简单定性数值分析
Variance估计的难处再次回顾一下Bengio 对当代DNN的理解：Machine learning is essentially a f...

460 0 0
建模/指标/系统设计
由于在广告，推荐，营销，甚至很多更特定的业务场景中，整个链路囿于资源局限性，通常在一定工程与算法的限制下，被拆分成了多个模块。一个typical...

1093 0 0
预估数值校准分析
1、充分拟合的模型，分某特征取值维度在训练集上积分（例如区分产品类型进行预估值积分），是否等于训练集上的统计值。 A：不是，需要具体分析。 a、...

496 0 0

模型排序能力与用户相关性
在推荐场景下，模型auc大于0.5，其排序能力一定高于随机吗？模型离线评估auc大于0.5，上线后发现与随机推荐没差别？排序的商品结果与用户没有...

734 0 1
Entropy，Gini ，Information gain
Entropy 信息量：值域发生概率越小，信息量越大。不确定性越高，信息量越大。信息熵：值域,更确切为：，为类别数量：Skewed Proba...

2017 1 1