【译】像数据科学家一样思考

Monica Rogati 是领英的数据科学家,她给了我们在挖掘数据时十个应该避免的常见错误

  1. 假设数据是干净的。数据清洗通常占了工作中大部分时间,而且简单的清洗动作也常常揭示出重要的模式。比如问道“是这个方法导致数据中的30%都为NULL吗?90210这个邮编对应的客户真的有那么多吗?”在拿到数据时就进行核对,以确保其有效和有用。
  2. 数据处理不规范。假设你正在制作一个热门结婚圣地的列表。你可以计算飞去某地参加婚礼的人数,但如果不考虑所有去那个地方旅客的总人数的话,你的列表仅仅代表了一个航空业发达的城市列表。
  3. 剔除异常值。假设有21个人每天使用你的产品一千次,这些人可能是你的超级粉丝,当然也可能仅仅是爬你网站的爬虫程序。但不管他们是谁,不应该随便的剔除他们。
  4. 包含异常值。从某个角度来说这21个人每天用1000次你的产品很有趣,因为他们能带给你意想不到的东西。但处理这些人没有合适的通用模型,所以在某些功能上需要剔除他们,否则“推荐功能”可能给你所有的忠实粉丝都推了千篇一律的东西。
  5. 忽视时间周期性。看了数据后惊叹实习生是今年增长最快的职位,定睛一看才发现是7月。在寻找规律时,如果忽视了时刻、工作日、月份会导致错误的决策。
  6. 汇报增长情况时忽视规模。情境非常重要,否则刚刚开始时,你爸爸注册了一次,增长率就翻了一倍。
  7. 数据输出,如果你不知道该看什么,那dashboard基本没什么用。
  8. 狼来了。你设置了很多报警好在出问题时第一时间修复,但当你的阈值设的很敏感时,这些警报就像“狼来了”一样,你慢慢就开始无视它们。
  9. 不要采集这里的数据综合症。将你的数据和其他来源的数据混合,可能会产生有价值的东西。“你最好的客户来的地方都非常喜欢日料吗?”。这些会给你很多很好的下一步行动的想法,甚至会影响你的增长策略。
  10. 聚焦噪声数据。即使什么都没有,我们人类也能给他找出模式来。摆脱虚荣指标的数据,退后一步关注更远大的目标。

How to Think Like a Data Scientist

Monica Rogati, a data scientist at LinkedIn, gave us the following 10 common pitfalls that entrepreneurs should avoid as they dig into the data their startups capture.

  1. Assuming the data is clean. Cleaning the data you capture is often most of the work, and the simple act of cleaning it up can often reveal important patterns. “Is an instrumentation bug causing 30% of your numbers to be null?” asks Monica. “Do you really have that many users in the 90210 zip code?” Check your data at
    the door to be sure it’s valid and useful.
  2. Not normalizing. Let’s say you’re making a list of popular wedding destinations. You could count the number of people flying in for a wedding, but unless you consider the total number of air travellers coming to that city as well, you’ll just get a list of cities with busy airports.
  3. Excluding outliers. Those 21 people using your product more than a thousand times a day are either your biggest fans, or bots crawling your site for content. Whichever they are, ignoring them would be a mistake.
  4. Including outliers. While those 21 people using your product a thousand times a day are interesting from a qualitative perspective, because they can show you things you didn’t expect, they’re not good for building a general model. “You probably want to exclude them when building data products,” cautions Monica. “Otherwise, the ‘you may also like’ feature on your site will have the same items everywhere—the ones your hardcore fans wanted.”
  5. Ignoring seasonality. “Whoa, is ‘intern’ the fastest-growing job of the year? Oh, wait, it’s June.” Failure to consider time of day, day of week, and monthly changes when looking at patterns leads to bad decision making.
  6. Ignoring size when reporting growth. Context is critical. Or, as Monica puts it, “When you’ve just started, technically, your dad signing up does count as doubling your user base.”
  7. Data vomit. A dashboard isn’t much use if you don’t know where to look.
  8. Metrics that cry wolf. You want to be responsive, so you set up alerts to let you know when something is awry in order to fix it quickly. But if your thresholds are too sensitive, they get “whiny”— and you’ll start to ignore them.
  9. The “Not Collected Here” syndrome. “Mashing up your data with data from other sources can lead to valuable insights,” says Monica. “Do your best customers come from zip codes with a high concentration of sushi restaurants?” This might give you a few great ideas about what experiments to run next—or even influence
    your growth strategy.
  10. Focusing on noise. “We’re hardwired (and then programmed) to see patterns where there are none,” Monica warns. “It helps to set aside the vanity metrics, step back, and look at the bigger picture.“

节选自Alistair Croll,Benjamin Yoskovitz,《Lean Analytics》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容