秋招面经

项目相关

  1. 为什么选取 XGBOOST?
  • xgboost 相对于 svm、LR 有更好的效果。
  • xgboost 相对于其他树模型的优点,支持特征粒度的并行处理,决策树最耗时的步骤就是对特征的值排序,因此可以大大加速训练过程;同时借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算;对代价函数做了二阶 Taylor 展开,引入了一阶导数和二阶导数,包含了更多信息;当样本存在缺失值时,XGBoost 能自动学习分裂方向等优点。
  • xgboost 相对于神经网络,xgboost 有更好的可解释性。

字节提前批

一面(2h)

  1. 自我介绍
  2. 介绍下 word2vec,CBOW 和 SG的区别、快慢对比,准确率对比、两种优化方法,word2vec 使用的词向量是输入层到隐藏层的权重矩阵?
  3. 为什么选用XGBoost?以及 XGBoost 与 GBDT 的区别?
  4. L1,L2 正则化的区别?
  5. 过拟合怎么解决?
  6. 算法一:括号匹配,带 * 号
  7. 算法二:字符串的一次编辑

正式批:
一面

  1. 自我介绍
  2. sql:lefter join 与 out join 的区别
  3. ELF 文件,Android 加固技术/Android 解加固技术。
  4. TFIDF 的介绍。
  5. FM、DeepFM 介绍以及区别。
  6. 随机森林与 XGBOOST 的区别。
  7. sql 语句

A表 登录事件表

ID ip ip_location device
12343 34.147.2.6 中国-上海-浦东 {"device_type":"android","os_version"":"7.6.0"}
76335 192.168.9.1 中国-广东-珠海 {"device_type":"iphone","os_version"":"10.2.3"}

B表 注册表

ID register_province register_ip register_devicetype
34521 四川 21.56.123.32 iphone_8.6
87233 内蒙古 42.66.211.9 huawei_5.4.0

要求:找出注册地为上海,登录发生地不在上海,登录设备类型与注册时变化了的,登录不同省份个数大于5个的ID(排除内网)

美团转正面试

一面

  1. word2Vec
  2. 负样本如何采样,才能更高效
  3. Query 改写后续思路
  4. 算法题:TOP K 问题,两种思路的时间复杂度与空间复杂度。

二面

  1. 情景题:文本分类,类别大(1000个类别),如何分类?
    1.1 分层分类,如何解决大类别判别失败,整个模型就停止?
    1.2 有没有一种端到端的模型,可以解决多类别分类?
  2. 构建语料库:如何保证扩充语料的多样性(对比于相似度模型)
  3. NER 中,CRF 与 HMM 的区别?LSTM-CRF 与 CRF 的区别?
  4. Bert 的原理,以及 Bert 改进的论文以及原理?
  5. Bert 如何减少资源利用?
  6. 图神经网络的介绍?GCN 与 GraphSage 最大区别是什么?

腾讯

一面

  1. 随机森林与XGBoost的区别,XGBoost 与 GBDT 的区别
  2. PCA 降维,以及其他的降维方式。线性降维、非线性降维
  3. 相关性系数
  4. 情景:如何去识别电信诈骗
  5. 负样本失衡?
  6. BERT 的原理
  7. tensorflow 与 pytorch 的区别
  • pytorch 是动态框架,tensorflow 是静态框架。
  • pytorch 的代码相对 tensorflow 代码更加简练。
  • 部署:tensorflow 部署更容易,特别是移动端的部署。

二面

  1. xgboost 源码
  2. 基本的决策树,特征选择的实现过程

三面(跪)

  1. 项目中,bert 实践有什么 tricks.
  • 筛选训练数据,剔除过短或者过长的数据;
  • 尝试bert+conv, bert+conv+avg_max_pooling, bert_last_layer_concat等方式;
  • 针对本场景数据,进行少步数的进一步预训练;
  1. 相似度模型怎么扩充样本?

补招一面

  1. 算法题:逆时针打印矩阵
  2. Kmeans 类别大小差异太大如何解决?
  3. XGB 特征重要度?
  4. XGB 和其他树模型对缺失值是否敏感?
  5. GBDT 怎么用于分类模型?

京东

一面

  1. 一亿的数据量,去重之后为100w,获取其中重复次数最大的10位。
  2. Attention 机制的介绍
  3. 损失函数的介绍
  4. 推导交叉熵的梯度递降公式
  5. 文本分类模型的介绍
  6. 互信息与左右熵的介绍,区别

二面

  1. 全部围绕项目展开,如何进行同义词的挖掘?词向量如何获取?
  2. 搜索算法的流程。

小米

一面

  1. Transfomer 与 RNN 的区别
  2. Attention 机制的介绍
  3. PCA 降维的介绍?特征值与特征向量代表的物理含义。与 LDA 的区别?
  4. Kmeans 在哪种数据集下效果不好?
  5. FM 算法 field 存在多个激活位置,怎么处理?
  6. FM 算法针对连续特征怎么处理?
  7. 场景题:AUC 值很高,但是正样本的 概率大部分为 0.99,负样本的概率大部分为 0.7,这种情况正常吗?不正常的话是什么导致了这种原因?(开放题)
  8. 算法题:(说思路)
    在二维空间中,最多有多少个点在同一直线上?float 精度问题怎么解决?

二面

  1. 项目相关
  2. SVM 的原理,推导过程,对偶问题?核函数?
  3. Bert 与 XLnet 介绍?Bert 的参数大小
  4. Multi Attention 机制的介绍?
  5. Bert 的位置编码?

九鼎无双(游戏)一面

  1. 进程、线程、协程的区别?
  2. Linux 如何查看运行中的进程?
  3. TCP/ UDP 的区别?
  4. 大数据中,TOP100问题?(堆排序的生成问题)
  5. 逻辑题:8L、5L、3L 的水杯,怎么平均倒出 2 杯 4 L的水?
  6. 逻辑题:1000杯水,999是水,1瓶是毒药,小白鼠1个小时之后检测是否有毒,问:两个小时的话,最少需要多只小白鼠?

网易 一面

  1. 项目介绍
  2. 残差网络的介绍?
  3. 推荐系统?
  4. word2vec 的介绍?
  5. pytorch 分布式训练?
  6. 深拷贝与浅拷贝的关系?
  7. 多进程与多线程的关系?
  8. 稀疏化模型?
  9. torch 与 tensorflow 的区别?
  10. 算法:笔试原题

BIGO

一面

  1. 自我介绍
  2. 实习项目,query 改写
  3. 算法题1:树的最大路径
  4. 算法题2:最长回文序列长度(不需要连续)

二面

  1. 项目
  2. 算法:包含(0-m)的子区间最小长度。
  3. abcd * 4 = dcba 求 dcba 的数字,为2178.

滴滴

一面

  1. Query 改写,同义词挖掘,左右熵和互信息的公式
  2. Query 改写的后续以及改进点
  3. bert 、transformer、attention 以及对应的训练机制。
  4. 算法题:二叉搜索树删除节点

好未来

一面

  1. 自我介绍
  2. 项目相关
  3. 介绍 Xgboost 模型
  4. 介绍 textRnn+Attention
  5. SVM,核函数
  6. 评价指标 AUC 值,ROC 曲线,准确率、精确率与召回率
  7. 熵,信息增益
  8. 算法题:int 数字是否是回文数字

小鹏汽车

一面

  1. 自我介绍
  2. 项目相关
  3. BERT的结构,Transformer 结构
  4. Attention 机制原理
  5. 牛顿法与拟牛顿法的区别
  6. 凸函数定义,Jensen不等式?
  7. HMM 与CRF的区别
  8. 集成学习分为几类?boosting如何实现(以xgboost为例)
  9. 访问内存数据,操作系统怎么运作?
  10. 计算机7层网络,TCP如何进行用塞控制?

安恒信息

  1. 自我介绍
  2. 算法题:数组中最小的 K 个数,要求有序排列
  3. FM 怎么做到避免矩阵稀疏
  4. XGBOOST 怎么做到并发性,特征空间太大导致的问题?
  5. HTTP 的请求?
  6. 邮件发送接受过程,各自使用的协议?
  7. 聚类算法的肘部法则和评价指标有哪些?

360

一面

  1. 概率题:患癌症的概率值(贝叶斯公式+全概率公式)
  2. 132 模式,LeetCode 原题

去哪儿网

一面

  1. 算法题:两个递增数组的交集
  2. 算法题:旋转递增数组,查找 target 的位置
  3. Kmeans 聚类的缺点?
  4. LR 为什么使用交叉熵而不是均方误差?

阿里补招

  1. BERT 特点
  2. Transformer
  3. DeepFM介绍
  4. XGB介绍
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容