整理近一年的机器学习面试题大全(知乎专栏同步更新)

本人知乎更新地址: https://zhuanlan.zhihu.com/p/97742344

  1. 最大似然估计和最小化KL散度之间的关系?
image
  1. 总结 a. 最小化 KL 散度其实就是在最小化分布之间的交叉熵 b. 许多作者使用术语 “交叉熵’’ 特定表示伯努利或 softmax 分布的负对数似然,但那是用词不当的。 c. 任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。 d. 我们可以将最大似然看作是使模型分布尽可能地和经验分布 pˆ_data 相匹配的尝试。理想情况下,我们希望匹配真实的数据生成分布 p_data,但我们没法直接知道这个分布。

e. 虽然最优 θ 在最大化似然或是最小化 KL 散度时是相同的,但目标函数值是不一样的。在软件中,我们通常将两者都称为最小化代价函数。因此最大化似然变成了最小化负对数似然(NLL),或者等价的是最小化交叉熵。将最大化似然看作最小化 KL 散度的视角在这个情况下是有帮助的,因为已知 KL 散度最小值是零。当 取实数时,负对数似然是负值。

2. 条件概率分布公式?

image

3. AdaBoost

image

4. AdaBoost中的Weight Trimming?

image

5. AdaBoost是一个具有里程碑意义的算法,因为其实第一个具有什么性质的算法?

第一个具有适应性的算法,即能适应弱学习器各自的训练误差率,这也是其名称的由来(Ada为Adaptive的简写)。

AdaBoost的具体流程为先对每个样本赋予相同的初始权重,每一轮学习器训练过后都会根据其表现对每个样本的权重进行调整,增加分错样本的权重,这样先前做错的样本在后续就能得到更多关注,按这样的过程重复训练出M个学习器,最后进行加权组合

6. AdaBoost采用指数损失的原因?

image

这意味着 sign(f(x)达到了贝叶斯最优错误率,即对于每个样本 x都选择后验概率最大的类别。若指数损失最小化,则分类错误率也将最小化。这说明指数损失函数是分类任务原本0-1损失函数的一致性替代函数。由于这个替代函数是单调连续可微函数,因此用它代替0-1损失函数作为优化目标。

指数损失吸引我们的地方是 1: 它良好的可计算性; 2: 在更新权重分布时简单的形式。 其他方面并不会带来比对率损失(交叉熵)更好的结果,原因如上.

统计学告诉我们,利用期望公式,然后求导可知,使得指数损失期望最小的函数正是1/2*odds。 这也就是说,指数损失的加性模型的优化过程实际上是在逼近1/2对率。 回忆,另一个逼近对率损失的代价函数是什么?当然也就是我们常见的交叉熵。因此,二者本质上有相同的解。 所以说,指数损失本身并没有带来优化上的特殊,优点在于计算和表达简单。

7. Bagging

image
image

8. Bagging和Boosting和Stacking区别?

image

9. CART分类树算法对于连续特征和离散特征处理的改进?

image

10. CART用gini指数来选择特征的原因?

image

11. CART算法介绍

image

12. CART算法伪代码?

image

13. How are the primal and the dual problems related?

image

14. kd树

image
image
image

15. kd树算法复杂度?

image

16. KKT条件中的对偶互补条件是啥?

image

17. KKT条件什么时候成立, 具体是啥?

image
image

18. KL散度

image

19. k近邻法

image

20. LDA优缺点?

image

21. logistic回归

image
image

22. Real AdaBoost是什么?

image

23. smo为什么要选择一个违反约束条件最严重的的点?

image

24. stacking

image
image
image

25. Why does XGBoost perform better than SVM?

image

26. xgboost

xgboost: A) xgboost的目标函数?

image

xgboost: B) 如何分布求解square loss?

image

xgboost: C) 如何分步求解第t个函数f_t?

image

xgboost: D) 树结构定义?

image

xgboost: E) 树的复杂度定义?

image

xgboost: F) 目标函数推导

image
image

xgboost: G) 举例说明如何计算树结构分数?

image
image

xgboost: H) Searching Algorithm for Single Tree ?

image

xgboost: I) 最优切分点划分

image

xgboost: J) 离散特征处理

Xgboost没有单独处理离散和连续特征, 只需要对离散特征进行one-hot编码, 然后xgboost便可使用推导出的评分公式来根据分类变量进行score split

xgboost: K) 剪枝和正则化

image

xgboost: L) 生成一棵树后如何Boosting?

image

xgboost: M) gradient boosting为什么使用泰勒展开?

image

xgboost: Compare GBM and XGBoost?

image

xgboost: Objective Function

image

xgboost: Regularization (正则化)

image

xgboost: Ridge regression , Lasso , Logistic regression?

image

xgboost: Tree Ensemble methods?

image

xgboost: what's the advantage of XGBoost over GBM?

image

Xgboost: XGBoost的特点?

image

xgboost: 二阶泰勒展开在xgboost里非常有效, 为什么通常机器学习优化还是使用梯度下降法?

image
image

xgboost: 完整的gradient boosting伪代码?

image
image

xgboost: 常见的loss function?

image

xgboost: 离散值为什么建议one-hot编码?

image

xgboost算法从头到尾推导一遍?

image
image

27. 不觉得最大熵原理很奇怪吗?

image

28. 为什么要考虑线性规划的对偶问题?

image
image

29. 主定理的公式?

image

30. 举一个CART回归树的例子?

image
image
image

31. 举例理解朴素贝叶斯分类器?

image
image
image

由于0.063>6.80×10^−5,因此,朴素贝叶斯分类器将测试样本“测1”判别为“好瓜”。

32. 什么是极大似然估计?

image

33. 什么是经验风险最小化?

image

34. 从哲学的角度解释一下最大熵原理?

image

35. 偏差,方差

image
image
image

36. 全概率公式

image

37. 关于最大熵模型的严重困惑:为什么没有解析解?

image
image

38. 决策树

决策树定义

image

剪枝

image

启发函数

image

决策树学习基本算法伪代码?

image

决策树算法优缺点?

image

决策树算法对比?

image
image
image

对决策树启发函数做对比?

image

39. 前向分步算法

image

40. 加法模型 (Additive Model) 和指数损失函数 (Exponential Loss)

image
image

41. 加法模型的Shrinkage?

image

42. 如何用图解释EM算法, 说出算法步骤?

image
image

43. 如何解决过拟合与欠拟合?

image

44. 对偶问题中的主问题是什么?

image

45. 常用核函数

image

46. 常见距离与相似度度量?

image
image
image
image

47. 序列最小最优化(SMO)算法

image
image
image
image

48. 感知机

image
image

感知机的优化策略是什么?

image

感知机的对偶形式是什么?

image

49. 拉格朗日函数是什么? 拉格朗日乘子是啥?

image

50. 提升方法

提升(boosting)是一种常用的统计学习方法,是集成学习的一种.它通过改变训练样本的权重(概率分布),学习多个弱分类器(基本分类器),并将这些分类器线性组合来构成一个强分类器提高分类的性能.

51. 提升树

image

52. 支持向量机基本概念

image

53. 最大熵模型

image
image
image
image
image
image

54. 最小二乘法

image

55. 期望风险是什么?

image

56. 朴素贝叶斯分类的优缺点

image

57. 机器学习常见的损失函数?

image
image
image
image

58. 概率密度函数和似然函数之间的关系?

image
image
image

59. 求解对偶问题的解d*

image

60. 用隔壁老王的故事, 说明先验分布、后验分布、似然估计这几个概念是什么意思

image

61. 监督学习的问题可以转化为什么? 这时候目标函数是什么?

监督学习的问题可以转化为经验风险或者结构风险函数的最优化问题

这时候经验或者结构风险函数就是最优化的目标函数。

62. 线性可分SVM的对偶算法

image
image

63. 线性可分支持向量机

image
image

64. 线性支持向量机

image
image
image

65. 经验风险,期望风险和结构风险的区别是什么?

image

66. 经验风险是什么?

image

67. 结构风险是什么?

image

68. 结构风险最小化的目的是啥, 为什么要定义结构风险函数?

image

69. 给出一个贝叶斯分类的例子?

image
image
image

70. 讲一个关于卷积的一个血腥故事?

image

71. 贝叶斯公式是什么

image

72. 贝叶斯分类器

image
image

73. 逻辑回归损失函数为什么使用最大似然估计而不用最小二乘法?

image
image

74. 非线性支持向量机

image

75. 风险函数与监督学习的关系

监督学习的目的就是选择令期望风险最小化的模型,但是由于联合分布 P(x,y)未知,风险函数的值并不能直接计算,所以监督学习就称为一个病态问题(ill-formed problem)。

76. Batch Normalization 和 Group Normalization有何区别?

BN是在 batch这个维度上进行归一化,GN是计算channel方向每个group的均值和方差

(未完待续)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容

  • LR和SVM的区别 相同点:1、都是监督、分类算法,且一般处理二分类问题2、两个方法都可以增加不同的正则化项,如l...
    账号已删除阅读 2,707评论 1 8
  • 1. RF, GBDT 的区别; GBDT,XGboost 的区别 GBDT在训练每棵树时候只能串行,不能并行,在...
    sylvainwang阅读 3,205评论 0 50
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,398评论 0 6
  • ML & DM 集成学习 模型融合 ensemble http://wakemeup.space/?p=109 E...
    章鱼哥呀阅读 1,735评论 0 6
  • 本文总结了《统计学习方法》(李航)中的一些机器学习方法,组织目录如下: 【第1章】 统计学习方法概论【第2章】 感...
    牛奶芝麻阅读 4,350评论 0 13