群内2018_5月讨论整理

归档至github

说明

以下内容来自群中出现的问题,大家讨论的结果

Q群:432600958

微信群:加微信w3aboutyun,附上about云铁粉

部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。
五月一直在加班,整理的东西有限

如何从小白快速蜕变为大佬

时间

2018.05.03

内容

这是一些经验,主要有两点
1、 培养自己的阅读习惯
2、 提高对新技术的敏感力
文章末附了很多公众号

ref

Spark 读取本地文件

时间

2018.05.03

讨论内容

Spark 作为一个分布式系统,如果读取本地文件,则要求该文件在所有节点都存在,并且目录都要求一致。

  • 解决方法1:分发到所有节点(麻烦)
  • 解决方法2:将文件传到hdfs,读取hdfs路径
  • 解决方法3:使用addfile方法

扩展

Spark中函数addFile 和 addJar函数介绍

机器学习优化算法讨论 -- by 木东居士 ref

时间

2018.05.03

讨论内容

机器学习的算法其实比运筹算法要简单,更偏重应用场景,更多的时间在做特征工程

机器学习算法里基本都有用到二阶特性(牛顿法要求hessian矩阵),都是一阶的(如梯度下降)

大规模学习来说,障碍往往在于算法的计算能力不足,而不是数据不够,所以也可以说传统额统计学习方法都不适合大规模数据处理

在样本量比较多的时候,线性分类方法的劣势小很多,例如可以通过手工拆分/离散化特征来模拟非线性关系。而且有个经验是,在数据量大的时候,一些看起来粗暴无脑的方法反而有令人惊奇的效果。

SVM 计算复杂度O(n^2),存在两个超参数,只能通过穷举实验来求,计算时间要高于不少非线性分类器
随机森林 计算复杂度O(nlogn)

资源分享

时间

2018.05.08

内容

经典算法大全 密码 ce85

算法导论中文版.pdf 密码 2ygr

python资源分享 密码:ll7q

内容包括:《Python 2.7 Tutorial 中文版》《Python3程序开发指南(第二版)》《Python高级编程》《python核心笔记》《python核心编程第二版笔记》《Python技术手册(第2版)》《Python源码剖析》《quantsp研究计划书》《笨办法学Python》
by 小青年

工作感悟

时间

2018.05.12

内容

工作的意义

最近在思考一个问题,工作的意义,一份工作最终目的究竟不该是一份简单的工资,而是这个公司能赋予你的资源,另一个是这份资源的成果转换对于市场的冲击力,对人,对社会的贡献度,人终究是需要处理社会活动的。

职业背景和职业活动的限制,换句话说,工作本身是用来解决社会问题的,个人可能觉得只是天天码代码,做工作量,但它的成效简直太小了,一眼可以看到他的发展和未来。但如果说直面社会问题,去为解决问题而去选择走向,我个人理解人是会不去换不同的工作和行业,最终形成一套解决方案的,另一个角度,如果是为了盈利,这个解决方案的出发点一开始就是针对购买力的问题,你做的是服务和解决方案的路子。触手伸的越广,收益越大。

即使是办企业也一样,仔细去看每个企业的基本描述类似,但核心针对点不一样,不管是个人也好,企业也罢,需要求同存异,找出自己的突破点,这个时代不是靠努力,而是靠挖掘力,执行力。

by 道友 枫柚master

Spark persist(DISK_ONLY)产生的问题

时间

2018.05.30

内容

在Spark 的代码中增加persist(DISK_ONLY) 之后,会出现多个task failed,错误原因为container memoryOverhead

去掉persist(DISK_ONLY) 就不再报这个错误,没有task failed, 并且运行速度提升。
此外,对比每个stage的IO,发现DISK_ONLY的有部分stage的IO是去掉persist的两倍。

猜想原因

DISK_ONLY 是将不做序列化的对象直接存入DISK,这部分产生大量IO,会占用内存。

Spark中cache和persist的作用以及存储级别

Spark 代码优化

  • 使用更高效的数据结构 BitSet、OpenHashSet、OpenHashMap
  • inline
  • 一些汉字字符串,做维表映射之后,变成数字编号

Spark 高效数据结构

人工智能主要三块 大数据、NLP、CV

分布式发号器选择方案

  • UUID
  • DB
  • SnowFlake
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容