机器学习之线性回归

线性回归

场景:使用线性回归来预测波士顿房价。

说明

线性回归,即学习一个线性方程来拟合特征X与结果Y。
如根据房屋面积x1,房间数量x2,地理位置x3等来预测房屋的价格y。
所以我们要学习一个方程:
y=w_1x_1+w_2x_2+w_3x_3 + b
这个方程就是线性回归的模型函数,就是最终我们用来预测y值的函数
其中w_1,w_2,w_3,b 就是我们要学习的参数。

如何学习w_1,w_2,w_3,b 呢,我们要学到怎样的w_1,w_2,w_3,b才能证明这个模型ok呢?
我们的目标是让预测值尽可能地接近真实值。设预测值为y',真实值为y,我们当然是希望|y-y'|的值越小越好。
所以我们引入一个代价函数,用来衡量整体的预测值与真实值的整体差距。代价函数如下:
J(W,b) = \frac{1}{2m}\sum_{i=1}^{m}{} (y'^{(i)}-y^{(i)})^2=\frac{1}{2m}\sum_{i=1}^{m}{} (W·X^{(i)}+b-y^{(i)})^2

我们的目标就是要最小化J(W,b)。最小化J(W,b)的方法就是梯度下降法。

变量说明

对所用到的变量做一个统一说明,方便检查。

y=w_1x_1+w_2x_2+w_3x_3 + b 改写为:
y=w_0x_0+w_1x_1+w_2x_2+w_3x_3

设:
m: 样本个数
n_x:特征维度
θ:(w_0,w_1,w_2,w_3 ...)
则:
X的shape 为:(m,n_x+1)
y的shape为:(m,1)
θ 的shape = (n_x+1,1)

实现

Package

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
import seaborn as sb

加载数据

X,y = datasets.load_boston(return_X_y=True)
y = y.reshape(-1,1)
#将数据分为训练集和测试集
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size = 0.15,random_state = 1)
print(f"train_X的大小为:{train_X.shape}")
print(f"tain_y的大小为:{train_y.shape}")
print(f"test_X的大小为:{test_X.shape}")
print(f"test_y的大小为:{test_y.shape}")
train_X的大小为:(430, 13)
tain_y的大小为:(430, 1)
test_X的大小为:(76, 13)
test_y的大小为:(76, 1)
#标准化
def nomalize(X,axis):
    mean = np.mean(X,axis)
    std = np.std(X,axis)
    print(mean.shape)
    return (X-mean)/std, mean,std
#将数据标准化
train_X,mean,std = nomalize(train_X,axis=0)
test_X = (test_X-mean)/std

#插入一列全为1的表示x0
train_X = np.insert(train_X,0,1,axis=1)
test_X = np.insert(test_X,0,1,axis=1)
print(train_X.shape)
print(test_X.shape)
(13,)
(430, 14)
(76, 14)

初始化参数

def init_parameters(n):
    theta = np.random.randn(n,1)
    return theta

定义损失函数

def compute_cost(y_,y):
    m = y.shape[0]
    cost = np.sum(np.square(y_-y))/(2*m)
    return cost

梯度下降

损失函数J(·)是一个凸函数。存在极小值。
梯度下降所做的就是在损失函数上沿着导数方向下降,从而靠近极小值。
所以实现梯度下降的步骤为:
1.对θ求偏导:
d_θ = \frac{d_{J(θ)}}{d_θ} = \frac{1}{m}X.T·(X·θ-y)
2.根据d_θ更新θ的值:
θ = θ-αd_θ
α为学习速率,人为指定。

def gradient_desent(X,y,theta,learning_rate):
    m = y.shape[0]
    y_ = np.dot(X,theta)
    d_theta = np.dot(X.T,y_-y)/m
    theta = theta - learning_rate*d_theta
    return theta

预测

使用模型函数进行预测

def predict(X,theta):
    return  np.dot(X,theta)

优化

def optimizer(train_X,train_y,theta,learning_rate,steps):
    costs = []
    for step in range(steps):
        theta = gradient_desent(train_X,train_y,theta,learning_rate)
        y_ = predict(train_X,theta)
        loss = compute_cost(y_,train_y)
        costs.append(loss)
        if step % 100 == 0:
            print(f"\nAfter {step} step(s),cost is :{loss}")
    return theta,costs

计算正确率

给定一个误差范围,如果预测值与真实值之差在该范围内,则表示预测准确

def calc_accuracy(y_pred,y,error_ratio):   
    '''
    y_pred---预测值
    y -- 真实值
    error_ratio ---误差范围,相比于真实值的百分比,如0.1,0.05
    '''
    y = y.reshape(-1,1)
    m = y.shape[0]
    correct_num = np.sum(np.fabs(y_pred-y) < error_ratio*y)
    return correct_num/m
    

组合到一起,训练模型

def model(train_X,train_y,test_X,test_y,learning_rate=0.05,steps=1):
    m,n_x = train_X.shape
    print(learning_rate)
    #初始化参数
    theta = init_parameters(n_x)
    theta,costs = optimizer(train_X,train_y,theta,learning_rate,steps)
    
    error_ratio = 0.30 # 即误差不能超过30%
    print("==== 训练集验证 ====")
    y_pred = predict(train_X,theta)
    corr_ratio = calc_accuracy(y_pred,train_y,error_ratio)
    print(f"训练集的正确率为:{corr_ratio}")
    
    print("==== 验证集验证 ====")
    y_pred = predict(test_X,theta)
    corr_ratio = calc_accuracy(y_pred,test_y,error_ratio)
    print(f"验证集的正确率为:{corr_ratio}")
    cost = compute_cost(y_pred,test_y)
    print(f"验证集的损失为:{cost}")

    # 绘制损失函数
    plt.xlim(0,steps)
    plt.plot(costs)
    plt.xlabel("step(s)")
    plt.ylabel("costs")
    plt.show() 
model(train_X,train_y,test_X,test_y,learning_rate=0.05,steps=800)
After 600 step(s),cost is :11.010287620444073

After 700 step(s),cost is :11.008066076099043
==== 训练集验证 ====
训练集的正确率为:0.872093023255814
==== 验证集验证 ====
验证集的正确率为:0.8289473684210527
验证集的损失为:10.975677786706013
损失函数曲线

源码地址:https://github.com/huanhuang/housePrices.git

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容