群内2018_４月讨论整理2

归档至github

说明

以下内容来自群中出现的问题，大家讨论的结果
Q群：432600958
微信群：加微信w3aboutyun,附上about云铁粉

部分内容整理时，已经注明出处，但很多内容，较为零碎，也无暇整理，如有不妥，请联系我，谢谢。
这次整理开始，按照问题进行分类

银行存储金额,使用什么类型

时间

2018.04.27

思路

用Int，直接存分

今日头条用户定向预估的实现方案　讨论

时间

2018.04.27

说明

ref
看到今日头条的广告投放平台，可以选择各种维度的用户定向条件，并根据不同的条件组合实时给出预估覆盖用户量，感觉把各种维度组合存储下来这个数据量太大了，尤其App行为定向几乎涵盖了市场上所有的App，还有商圈定向，所有维度组合得上亿条吧？有没有人知道这块的技术是如何实现的呢？1.如何存储？2.如何快速查询？

思路

类似kylin那样玩
计算广告领域的 adx 受众定向，有些维度需要存有些不需要有的维度只是为了分流给adx或dsp等
不是实时计算实时计算的一般是ctr 和反作弊其它的都是以前计算推荐的也是多数提前计算 kylin满足不了单纯的dsp的qps可以到5000+ 不超 100ms访给头条头条的qps会更大
应该也是给用户打上标签了。所以也可以计算很快。类似hbase这样的数据库

kafka提升写入速度

时间

2018.04.26

各大hadoop 版本比较 --by 刘明阿黄生

时间

2018.04.25

内容

1.原生hadoop，用脚本管理。
（缺点：无界面管理优点：以后经常升级组件会比较方便）
2.Cloudera发行版（Cloudera’s Distribution Including Apache Hadoop，简称 CDH ）免费
Cloudera公司也提供了类似的工具：Cloudera Manager（简称 CM ）来配置、监控和管理CDH集群
（缺点：需要厂商支持的时候贵的一逼优点：组件升级、性能图标方面更方面）
3.Hortonworks发行版（Hortonworks Data Platform，简称 HDP ）免费
Hortonworks公司的Apache Ambari项目的目的就是通过软件来配置、监控和管理Hadoop（HDP）集群，以使Hadoop的管理更加简单。Ambari提供了一个基于它自身RESTful的api实现的直观的、简单易用的web界面。
（缺点：暂不明优点：日常管理更方便）
总结：Cloudera、Hortonworks都是大厂发布，性能稳定，运维人员喜欢用，管理方便。原生hadoop一般适用于开发人员。

关于数据挖掘中模型、算法和数据的一些看法

时间

2018.04.20

观点

一般是先看有哪些数据，再看要产出什么，算法是最后的，而且也不是最重要，顶多就是一个速度快慢的问题了。模型算法这种大家似懂非懂的，出去忽悠甲方，才好吹牛B啊。
底层的基础算法公式是一致的，然后去和业务做匹配，形成针对业务的模型迭代算法。比如，人口模型，用地模型什么的。
挖掘初期，能尽量用简单的方法处理好适当数据，产生效果就不错了。上升期，模型数据都可以进一步突破，也可以选择不同场景来做。是的，先要有东西出来，而不是说做的完美。先找合适场景，能产生数据价值，搞简单算法，先落地为主
分公司，像搜索的几家公司，除了全文检索的技术，后面自然语言的算法，模型太多了。
场景不同，除非老板给你的定位就是搞搜索，nlp，否则你开始就搞这个，几个月都弄不出来成绩就完了
算法模型是要有大量训练数据和测试数据进行模型验证的。要不然模型容易过拟合或者欠拟合。
数据量不够的话，可以用k折交叉验证来进行模型验证
我看过一本书忘记名字了，讲大数据的，书中一个观点挺有意思的，说大数据的本质不是数据量的大小，我的理解就是不抽样的数据，会有很多看似无用的数据，但当数据量上来了，这些没用的数据就能挖掘出实际价值

关于大公司的开源技术，解决方案的一些看法

时间

2018.04.20_3

观点

很多解决方案，大厂的虽然是out的，在外面也可以吃很长一段时间
大厂开源看思路，照搬就是作死，正好拿些小厂商做试验，如果可行，就分分钟钟拷贝出来
很多技术，小公司并没有机会用到比如数据上云，和数据挖掘
阿里主要是有盈利目标。就算懂了，也是自己小范围使用。最恶心就是阿里开源。明知道自己的东西需要一大堆外围配合，例如ssd阵列冷热分离，仍然阉割之后拿出来社区版，结果造成你上坑几率极大。

Spark中　hashshuffle 和 sortshuffle

时间

2018.04.18

说明

1.6 以上默认Sort-Based Shuffle
1.2 是HashShuffle

原始HashShuffle 机制
思考核心点：上游数据是怎么分配给下游数据的。
假设有4个Map 要分成3类，也就是有3个Reducer,中间会生成4*3 个小文件

优化后的HashShuffle 机制
因为Hash算法会根据你的 Key 进行分类，在同一个进程中，无论是有多少过Task，都会把同样的Key放在同一个Buffer里，然后把Buffer中的数据写入以Core数量为单位的本地文件中，(一个Core只有一种类型的Key的数据)，每1个Task所在的进程中，分别写入共同进程中的3份本地文件，这里有4个Mapper Tasks，所以总共输出是 2个Cores x 3个分类文件 = 6个本地小文件。

Sort Shuffle

首先每个ShuffleMapTask不会为每个Reducer单独生成一个文件，相反，Sort-based Shuffle会把Mapper中每个ShuffleMapTask所有的输出数据Data只写到一个文件中。因为每个ShuffleMapTask中的数据会被分类，所以Sort-based Shuffle使用了index文件存储具体ShuffleMapTask输出数据在同一个Data文件中是如何分类的信息！！
基于Sort-base的Shuffle会在Mapper中的每一个ShuffleMapTask中产生两个文件：Data文件和Index文件，其中Data文件是存储当前Task的Shuffle输出的。而index文件中则存储了Data文件中的数据通过Partitioner的分类信息，此时下一个阶段的Stage中的Task就是根据这个Index文件获取自己所要抓取的上一个Stage中的ShuffleMapTask产生的数据的，Reducer就是根据index文件来获取属于自己的数据。
Sorted-based Shuffle：会产生 2*M(M代表了Mapper阶段中并行的Partition的总数量，其实就是ShuffleMapTask的总数量)个Shuffle临时文件。

ref:

[Spark性能调优] 第二章：彻底解密Spark的HashShuffle
Spark sort-based Shuffle内幕彻底解密

一些零散的关于技术的想法：

技术的广度 Vs 深度
知识体系的力量

时间

2018.04.17

面试相关

时间

2018.04.17 及之后

总结

作为面试者：

态度要端正
打好基础，具备相应的实力。对于技术问题，一定要做，而且总结。
摆正心态，平稳应对难题，特别你的职位越高，心态越重要。遇到难题，就有点懊恼，这是不行的。
做好简历

作为面试官：

明确招人的需求和目的
通过阅读简历及提问，认清面试者的真实水平
这个地方，可以考虑设计一下有层次的问题。一来，逐层挖深，能更好的分析出面试者技术水平。二来，可以考验面试者思维的逻辑性和缜密性。三来，更有逻辑条理的问题，能更好的挖掘出一些深层次的问题，形成一些思维的交锋，能够让面试者感受面试官的技术水平。毕竟面试是个双向选择的过程，要是面试官太水，真的人才说不定就看不上了。
人品、态度考察。这个可能hr会比技术人员更在行。技术人员从整体上给出一个把握就行。

一些面试问题

面试问题集合　--by 一杯咖啡。

1、多线程的锁有哪几种
2、standby NN 和 secondary NN的区别？
3、Hadoop的HA如何避免脑裂？
4、讲讲HBase rowkey的设计
5、hbase访问热点问题
6、flume的数据源有哪些？
7、hive中数据倾斜问题？
8、写MR topN
9、spark rdd的lineage是怎么回事？
10、spark的宽依赖和窄依赖？（画出来）
11、rdd的懒加载是如何实现的？
12、HBase的major compaction机制，如何避免它对我们的业务的影响
13、oracle的分页？
14、窗口函数（我不知道这题问的是hive的窗口函数还是spark的窗口函数）
15、用SQL统计UV、PV指标
16、kafka是如何实现消息的副本？怎么控制N+1?
17、HBase查询的时候用什么对象？（这题不知道要问啥，面试官说：表操作的几个对象？？）

从头写一个简单的分布式服务，我只要最简单的功能，work 向master发心跳，超时剔除。 -- by 王二铁

参考zk 实现原理，要求对分布式架构有一定的了解

大文件放到内存处理

有一个5000w的用户文件，一个2亿记录的用户看电影的记录文件，列出前1000个看电影最多的用户（内存只有1G) 那前1000w个呢
一个5000万长度的数组加一个5000万个key的HashMap，内存消耗会超过1个G吗？遍历2亿次加上5000万*log(5000wan）时间效率。这应该是最蠢的方法了。
所有数据肯定内存是没法容下的，先把大文件hash成许多个小文件直到内存可以处理，之后算每个小文件的top1000，然后再递归合并小文件，直到内存可以处理

一些好的经验总结

MapReduce执行过程分析
 kafka 的offset
Hadoop权限管理
 JVM 堆内存和非堆内存
 YARN ResourceManager调度器的分析
 YARN 内存参数终极详解

Docker 密码: 8m4a
实战Docker到Kubernetes技术系列视频教程
 如何免费上谷歌

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,165评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,720评论 1赞 298
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,849评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,245评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,596评论 3赞 288
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,747评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,977评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,708评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,448评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,657评论 2赞 249
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,141评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,493评论 3赞 258
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,153评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,108评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,890评论 0赞 198
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,799评论 2赞 277
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,685评论 2赞 272