对即将学习大数据专业的学生建议和书籍推荐?

大数据现在是个很宽泛的职业方向了。广义的大数据在工业界分为:

基础架构。这个岗位主要为大数据提供底层的存储、基础设施等,要求是熟悉Hadoop、Spark等分布式集群。 

数据仓库。这个岗位和业务紧密挂钩,主要做的工作是深入了解业务,设计出业务扩展性好的数据仓库。要求是会写SQL、懂数据仓库设计。

数据分析/数据挖掘/算法开发。这类岗位属于大数据的应用,真正把数据转化为生产力的工作。 

这三类岗位的依赖关系是3->2->1。

我们一般说的大数据方向应该是指3.数据分析/数据挖掘/算法开发。 这个岗位不但要学习本岗位要求的知识和技能,也必须了解岗位1、2的技术。比如说,你参与做一个推荐系统,那么你要获取数据,简单分析数据需要用Sql(一般是HiveQL),再复杂点的逻辑得写MR (MapReduce程序,下同)或者Spark程序,更复杂的逻辑或者场景,无法用规则来解决的问题,就得用上机器学习等知识了。那么从这个例子可以看出,你需要的知识结构是:

会写类SQL(包括MySQL、HiveQL等)

会写MR或者Spark程序,知道分布式集群原理、MapReduce的原理更好。

这里还是要推荐下小编的大数据学习QQ裙:532218147,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2018最新的大数据资料和0基础入门教程,欢迎初学和进阶中的小伙伴。在不忙的时间我会给解答

概率论和统计学知识。

机器学习算法。     

下面就这四个知识结构方向展开说一下。

会写类SQL

学SQL的最好方法就是写了。因为SQL的语法比较简单,也没有什么原理架构什么的,所以最好的学习方式是Just write SQL!

会写MR或者Spark程序

做数据挖掘和机器学习时候,训练模型也好,从Hive里面取数据也好,比较常用的就是写MR或者Spark程序。做数据仓库的人,把数据规整放到Hive中,然后我们做分析做挖掘的就直接从Hive中取数据就好了。取出的数据怎么玩出花样就靠统计学和机器学习算法了。训练模型是计算密集型任务,一般会放到分布式集群上跑(Hadoop、Spark集群)上跑,那么就需要写分布式计算程序,就是MR和Spark程序了。学习MR和Spark的方法也大多是工程性质的,多写代码。看看Google的MapReduce论文,理解下MapReduce的原理也是有必要的。

概率论和统计学知识

上面讲到,我们做分析、做挖掘的从Hive里取出数据,如何玩出花样,算法,那么这类算法的数学基础就是概率论和统计学习。这里推荐中科大陈希孺教授写的两本书《概率论与数理统计》和《数理统计学教程》。陈老师讲的比较透彻,我的感觉是难啃,但是啃完之后理解的很透彻。

机器学习算法

包括经典的机器学习算法和深度学习。有个现象挺有意思的,因为工业届机器学习岗位的人80%以上的时间都在做特征工程。所谓特征工程就是理解业务,从业务中提取指标、生成特征,如果能找到强特征,对预测效果的提高会很大。真正去写算法实现的机会并不多,因为有挺成熟的算法库了,比如Spark的MLLib,weka,谷歌的tensorflow平台,各种机器学习平台。那么还要不要深入理解算法过程了呢?答案是当然要!原因是:1. 虽然写算法的机会不多,但肯定还是有的,比如说现有的算法库解决不了的问题。2. 在现有算法库的基础上需要微调,必须深入理解算法过程才能做得到。3.另外,算法库也是人写的,能造好轮子的人很厉害的,造福大众啊。

这个方向推荐李航的《统计学习方法》和周志华的《机器学习》,这两本书偏原理。都是国产书籍的良心之作。我看《统计学习方法》的时候,会拿纸和笔自己写主要的公式,必要时可以推导,达到的程度是合上书可以把这个算法的主要公式和推导过程、算法过程写出来。理解算法过程后,可以自己写实现算法,比如写一个决策树或者朴素贝叶斯。再推荐一本偏实战的,是《机器学习实战》(有英文版)。这本书里面有一些Python写的例子。

对于还在学校的,我的建议是学好数学,特别是概率论、数理统计;学好计算机基础知识,比如数据结构、算法、操作系统等这些是内功,工作之后没那么时间让你系统的学习这些知识。对于在初入工业界的童鞋,我的建议是在做特征工程的时候,可以再学学概率论和统计学,最好能深入理解算法过程,毕竟职业路程还长,练好内功,以后的招式想怎么学就怎么学。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,688评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,559评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,749评论 0 226
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,581评论 0 191
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,741评论 3 271
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,684评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,122评论 2 292
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,847评论 0 182
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,441评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,939评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,333评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,783评论 2 236
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,275评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,830评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,444评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,553评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,618评论 2 249

推荐阅读更多精彩内容