机器学习笔记(2)-sklearn回归分析

第一大类.广义线性模型

1. 普通最小二乘法

  • LinearRegression类的拟合系数为w = (w1,w2,w3,...,wn),以此来最小化样本集中观测点和线性近似的预测点之间的残差平方和,数学本质就是:


  • 其fit()函数以数组x,y为输入,将拟合后的系数存储在变量coef_中,截距储存在变量intercept_中
  • predict(xtest)函数,传入一个参数xtest,输出预测得到的y值。
  • normalize()函数,传入需要进行归一化的数据集
  • score(xtest,ytest)函数,传入测试数据集,输出得到的拟合程度或者说x,y之间的线性关系是否足够强
  • 构建误差函数 error = np.mean((regr.predict(xtest)-ytest)**2) 来度量预测值与真实值之间的差距
    (后续用到再补充)
  • 该方法通过对X进行 singular value decomposition ( 奇异值分解 ) 来计算最小二乘法的解。如果 X 是大小为(n, p) 的矩阵,则该方法的复杂度为
    ,假设

代码示例

from sklearn import linear_model
import numpy as np 
import matplotlib.pyplot as plt 

x = np.array([1.08,1.12,1.19,1.28,1.36,1.48,1.59,1.68,1.80,1.87,1.98,2.07]).reshape(-1,1)
y = np.array([2.25,2.37,2.40,2.55,2.64,2.75,2.92,3.03,3.14,3.26,3.36,3.50]).reshape(-1,1)
regr = linear_model.LinearRegression()
regr.fit(x, y)
# print('The coef is :%f'%regr.coef_)
# print('The intercept is :%f'%regr.intercept_)
a = regr.coef_
b = regr.intercept_
Y = a * x + b
#plt.figure('LinearRegression')
#plt.plot(x,y,'.')
plt.scatter(x, y)
#plt.figure('Predict')
plt.plot(x,Y)
#plt.figure('LinearRegression & Predict')
plt.show() 

拟合后的图像

LR1.png

2.岭回归(Ridge Regression)

  • 由于最小二乘法在使用过程中存在一些难以忽略的问题,比如对于高度病态的数据的处理就变得比较困难,因此在此基础上,添加一个对系数大小的惩罚项来增加对共线性的鲁棒性,公式解释如下(其中alpha为非负数,是控制缩减量的复杂度参数:其值越大,缩减量越大,对应的鲁棒性也就越强)
  • 岭回归的复杂度与普通最小二乘法的复杂度相同
  • 其成员函数与最小二乘法基本相同,通过一段代码来了解。

代码示例

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import linear_model

#create data
x = 1. / (np.arange(1, 11) + np.arange(0, 10)[:,np.newaxis])
y = np.ones(10)

n_alphas = 200
alphas = np.logspace(-10, -2,n_alphas)

coefs = []
for a in alphas:
    ridge = linear_model.Ridge(alpha=a,fit_intercept=False)
    ridge.fit(x, y)
    coefs.append(ridge.coef_)
ax = plt.gca()
ax.plot(alphas,coefs)
ax.set_xscale('log')
ax.set_xlim(ax.get_xlim()[::-1])
plt.xlabel('alpha')
plt.ylabel('weights')
plt.title('Ridge coefficients as a function of the regularization')
plt.axis('tight')
plt.show()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容