106-商业数据分析之线性回归

1、商业数据分析简介

分析是一门使用数据构建模型的科学,这些模型可为公司、机构和个人的决策增加价值。

唯一客观的事实是数据。
模型的作用就是帮助我们从数据中挖掘有用的信息,以帮助管理者作出合理的决策。

大数据的特点(6V):
VOLUME:数据量大,一般到PB级
VARIETY:数据类型多
VELOCITY:数据产生速度快
VARACITY:数据可信
VALUE:数据具有商业价值
VARIABILITY:具备使用和格式化大数据的方式

结论:大数据分析能够赋予企业和个人强大的竞争优势;大数据分析对企业的成功至关重要。

2、线性回归

2.1 基本假设

(1)自变量相互线性独立;
(2)常数方差或同方差及不相关假定;在此条件下可以得到关于回归系数的最小二乘估计及误差的方差估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
(3)正态分布假定;在此条件下可得到关于回归系数的最小二乘估计及误差的方差估计的进一步结果,如它们分别是回归系数的最小方差无偏估计等,并且可以进行回归系数的显著性检验及区间估计。

2.2回归系数的估计

估计参数的方法有最小二乘法。

2.3回归系数的计算

梯度下降法:通过迭代方式逐步得到最优的结果。

2.4模型的评价

除了受自变量x的影响外,因变量y还受许多其他变量的影响,这些其他变量统称为残差变量,残差变量包含了除x以外其他所有变量对y的效应。
总平方和=回归平方和+残差平方和
使用回归平方和占总平方和的比值来反映自变量x对因变量y的解释能力,这就是判定系数R2
判定系数R2说明自变量x相对于其他变量(残差变量)来说对因变量y的影响有多重要,而且说明了这些点离回归直线越近,残差平方和越小。

2.5模型的参数检验

由于抽样的随机性,通过样本得到的回归系数会与真实值有一定的差距。
要将样本数据得到的结论推广到总体,需要通过检验总体中因变量y和自变量x之间没有相关性的零假设来实现。

t检验:对单个总体参数的假设检验,如系数1=0
F检验:对回归模型整体显著性的假设检验,如系数1=0,系数2=0……系数n=0

3、回归模型的选择

模型并不是自变量越多越好,而是尽可能少而精。在一个现象的几个合理的解释中,最简单的是最好的(奥卡姆剃刀原则)。
△不必要的自变量会增加估计噪声。
△如果自变量在回归模型中全部都使用的话,就会出现多重共线性等问题。
当比较潜在模型时可以使用一些方法做出选择:
1、基于标准的选择
2、基于假设检验的选择
3、收缩方法:岭(Ridge)回归, Lasso回归

3.1基于标准的选择

两种模型选择标准:
1、Ra2统计量,在回归模型的残差平方和( Residual Sum of Squares, RSS)和模型复杂度k之间的平衡。
2、AIC (Akaike Information Criterion)赤池信息标准,间接地刻画了估计模型和真实模型之间的距离,所以我们将选择最小化 AIC 的模型。AIC 在模型选择中为拟合性和简洁性提供了平衡。

由于向模型添加变量会减少RSS,因而会增加R2,所以R2并不是一个好的标准,它总会选择最大可能的模型。Ra2(修正后R2)通过引进自变量数量k,对自变量增加进行了约束。
可以从拟合优度的角度在一系列回归模型中选择Ra2最大的回归模型作为最优模型。

3.2基于假设检验的选择

基于p值的三种假设检验选择方法:向后消除,向前选择,逐步回归
向后消除 (backward elimination) 是所有变量选择过程中最简单的一种
• 从包含所有自变量的模型开始,删除大于阈值 acrit 的最高p值的一个自变量;
• 重新拟合模型,并删除剩余变量中的最不显著的自变量,删除标准依然是其p值大于acrit;
• 重复进行该过程;直至所有不显著的自变量被删除,从而完成变量选择过程获得最佳模型 。
向前选择(forward selection)是向后选择方法的相反过程。
逐步回归(stepwise regression) 是向后消除和向前选择的组合
• 在每个阶段可以添加或删除一个变量,使得变量有进有出;
• 解决了在流程早期添加或删除的变量,在后来不能删除或添加的矛盾;
• 实际上,逐步回归法并不是一个新的回归方法,所用到的参数估计方法都是之前介绍的,只是从众多变量中选择出最优模型的一套方法。

3.3收缩方法:岭回归、Lasso回归

通过对回归系数进行收缩,在尽量减少自变量的基础上获得好的模型。
岭回归(Ridge Regression)由 Hoerl 和 Kennard 于1970年提出,是一种有偏估计,是对最小二乘法(无偏估计)的改进。岭回归(Ridge Regression)通过添加系数的L2范数惩罚项来修正残差平方和。
选择好的\gamma或 t 值的原则:

  1. 各回归系数的岭估计基本稳定;
  2. 最小二乘估计的回归系数符号不合理时,岭估计参数的符号变得合理;
  3. 回归系数没有不合乎实际意义的绝对值;
  4. 相对最小二乘估计的残差平方和(RSS)增加不太多;
    5.自变量矩阵存在共线性,使得\beta的普通最小二乘估计不稳定时,岭回归特别有效。

Lasso回归通过添加系数的L1范数惩罚项来修正残差平方和。
1.对于Lasso,中等值的\gamma会使得很多 \beta_j趋于0;
2.当相信因变量可以被少数自变量解释,而其余自变量没有影响时,使用Lasso 是最合适的;
3.Lasso可以被视为一种变量选择方法;
4.岭回归没有消除任何变量,它只是让\beta_j变小了一点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,012评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,589评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,819评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,652评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,954评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,381评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,687评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,404评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,082评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,355评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,880评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,249评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,864评论 3 232
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,007评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,760评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,394评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,281评论 2 259

推荐阅读更多精彩内容