MachineLearning.1.如何使用ML进行股票投资.Day2

参考内容：
os.walk()返回文件名排序问题：python pitfall (陷阱)--不同平台os模块文件名排序

win32与linux中，运行列出文件命令(dir, ls), 默认对文件名的排序是先数字后字母。因win32大小写不区别，所以字母的排序就没什么好说了。linux下，字母的序列并没有按ascii表的序列，而是同一个字母的大小写排在一起，大写字母紧跟在小写字母之后。但python的os模块对两个平台处理结果却不一样。

续上一篇

4. Parsing data

解压ZIP包，放于合适的路径下。在PyCharm中新建Project选择anaconda下的python，脚本及运行结果如下：

import pandas as pd
import os
import time
from datetime import datetime

path = "/home/sum/share/Ubuntu_DeepLearning/intraQuarter" #cd path & pwd

def Key_Stats(gather="Total Debt/Enquity (mrp)"):
    statspath = path+'/_KeyStats'
    stock_list = sorted([x[0] for x in os.walk(statspath)]) 
    #in Linux use sorted() func
    #print(stock_list)

    for each_dir in stock_list[1:]:
        each_file = os.listdir(each_dir)
        #print(each_file)
        #time.sleep(15)
        if len(each_file) > 0:
            for file in each_file:
                date_stamp = datetime.strptime(file, '%Y%m%d%H%M%S.html')
                unix_time = time.mktime(date_stamp.timetuple())
                print(date_stamp, unix_time)
                #time.sleep(15)

Key_Stats()

本部分能够获得文件路径和文件名，也就是具体到秒的时间。
由于参考内容中提到的os模块读取文件名顺序问题，因此使用sorted()函数处理后再继续。

运行结果

5. More Parsing

import pandas as pd
import os
import time
from datetime import datetime

path = "/home/sum/share/Ubuntu_DeepLearning/intraQuarter" #cd path & pwd

def Key_Stats(gather="Total Debt/Equity (mrq)"):
    statspath = path+'/_KeyStats'
    stock_list = sorted([x[0] for x in os.walk(statspath)]) #in Linux use sorted() func

    for each_dir in stock_list[1:]:
        each_file = os.listdir(each_dir)
        #print(each_file)
        ticker = each_dir.split("/")[-1]  #in Linux use '/'

        if len(each_file) > 0:
            for file in each_file:
                date_stamp = datetime.strptime(file, '%Y%m%d%H%M%S.html')
                unix_time = time.mktime(date_stamp.timetuple())
                #print(date_stamp, unix_time)
                full_file_path = each_dir+'/'+file
                #print(full_file_path)
                
                source = open(full_file_path, 'r').read()
                value = source.split(gather+':') #exist </td> or </th>, may exist \n, so just use : and split twice
                if 1 < len(value):
                    value = value[1].split('<td class="yfnc_tabledata1">')[1].split('</td>')[0]
                else:
                    value = 'NoValue'
                print(ticker+":",value)

            #time.sleep(15)

Key_Stats()

此部分获取每个公司的名字和总负债股本比。
因为在使用split是有</th>或者</td>标签，因此只是用":"接在gather后；
在获取数字时，有可能文件中不存在要收集的字段，因此添加了if-else判断；
调试过程中发现在gather和具体数据之间，部分存在换行，因此分两次使用split获取数据。

获取公司名及总负债股本比

此处获取数据是使用的split和静态字符，更加广泛的应用参见Regular Expressions正则表达式。

6. Structuring data with Pandas

使用pandas将数据（datetime,unixtime,ticker,value）存入.csv文件中，其中value为'N/A'或者'NoValue'会pass。

import pandas as pd
import os
import time
from datetime import datetime

path = "/home/sum/share/Ubuntu_DeepLearning/intraQuarter" #cd path & pwd

def Key_Stats(gather="Total Debt/Equity (mrq)"):
    statspath = path+'/_KeyStats'
    stock_list = sorted([x[0] for x in os.walk(statspath)]) #in Linux use sorted() func
    df = pd.DataFrame(columns=['Date','Unix','Ticker','DE Ratio'])

    for each_dir in stock_list[1:]:
        each_file = os.listdir(each_dir)
        ticker = each_dir.split("/")[-1]

        if len(each_file) > 0:
            for file in each_file:
                date_stamp = datetime.strptime(file, '%Y%m%d%H%M%S.html')
                unix_time = time.mktime(date_stamp.timetuple())
                full_file_path = each_dir+'/'+file
                source = open(full_file_path, 'r').read()
                try:
                    value = source.split(gather+':') #exist </td> or </th>, may exist \n, so just use : and split twice
                    if 1 < len(value):
                        value = value[1].split('<td class="yfnc_tabledata1">')[1].split('</td>')[0]
                    else:
                        value = 'NoValue'
                    print(ticker+":",value)
                    df = df.append({'Date':date_stamp, 'Unix':unix_time, 'Ticker':ticker, 'DE Ratio':float(value)}, ignore_index=True)
                except Exception as e:
                    pass

    save = gather.replace(' ','').replace('(','').replace(')','').replace('/','')+('.6.csv')
    print(save)
    df.to_csv(save)

Key_Stats()

.csv文件内容

使用Pandas结构化数据，提高处理效率。

7. Getting more data and meshing data sets

对带标签数据的处理目标是进行分类，在投资方面，仅区分一只股票：

优于市场表现（1）
劣势于市场表现（0）

如果如果精细分类，或许可以分为：

Significantly Outperform（2）
Outperform（1）
Match (say within 0.5% or something)（0）
Under-perform（-1）
Significantly Under-perform（-2）

虽然Yahoo Finance提供了一些相关数据，但是为了练习两数据源融合，我们在Quandl获取S&P 500的相关数据，搜索并下载自2000年开始的数据，选择CSV格式。由于Quandl网站与教程中使用方法发生变化，因此在URL中输入视频里获取数据的地址，即下载S&P 500 Index数据集；也可从我的百度云盘下载，数据从2000年1月3号-2016年3月22号。

S&P 500 Index：标准普尔500指数覆盖的所有公司，都是在美国主要交易所，如纽纽约证券交易所、Nasdaq交易的上市公司。与道琼斯指数相比，标准普尔500指数包含的公司更多，因此风险更为分散，能够反映更广泛的市场变化。
从Quandl上下载数据需要账号，可以使用github（最近好像不通）、gmail、Linkedin。

import pandas as pd
import os
import time
from datetime import datetime

path = "/home/sum/share/Ubuntu_DeepLearning/intraQuarter" #cd path & pwd

def Key_Stats(gather="Total Debt/Equity (mrq)"):
#read the data sets
    statspath = path+'/_KeyStats'
    stock_list = sorted([x[0] for x in os.walk(statspath)]) #in Linux use sorted() func
    df = pd.DataFrame(columns=['Date','Unix','Ticker','DE Ratio','Price','SP500'])

    sp500_df = pd.DataFrame.from_csv("YAHOO-INDEX_GSPC.csv")

    for each_dir in stock_list[1:]:
        each_file = os.listdir(each_dir)
        ticker = each_dir.split("/")[-1]

        if len(each_file) > 0:
            for file in each_file:
                date_stamp = datetime.strptime(file, '%Y%m%d%H%M%S.html')
                unix_time = time.mktime(date_stamp.timetuple())
                full_file_path = each_dir+'/'+file
                source = open(full_file_path, 'r').read()
                try:
                    value = source.split(gather+':') #exist </td> or </th>, may exist \n, so just use : and split twice
                    if 1 < len(value):
                        value = value[1].split('<td class="yfnc_tabledata1">')[1].split('</td>')[0]
                    else:
                        value = 'NoValue'

                    try:
                        sp500_date = datetime.fromtimestamp(unix_time).strftime('%Y-%m-%d')
                        row = sp500_df[(sp500_df.index == sp500_date)]
                        sp500_value = float(row["Adjusted Close"])
                    except:
                        sp500_date = datetime.fromtimestamp(unix_time-259200).strftime('%Y-%m-%d')
                        row = sp500_df[(sp500_df.index == sp500_date)]
                        sp500_value = float(row["Adjusted Close"])
#The reason for the Try and Except here is because some of our stock data may have been pulled on a weekend day.
#If we hunt for a weekend day's value of the S&P 500, that date just simply wont exist in the dataset

                    stock_price = float(source.split('</small><big><b>')[1].split('</b></big>')[0])
                    print("ticker:",ticker,"sp500_date:",sp500_date,"stock_price:",stock_price,"sp500_value:",sp500_value)

#part of the stock_price doesn't exist
                    df = df.append({'Date':date_stamp,
                                    'Unix':unix_time,
                                    'Ticker':ticker,
                                    'DE Ratio':float(value),
                                    'Price':stock_price,
                                    'SP500':sp500_value}, ignore_index=True)
                except Exception as e:
                    pass

    save = gather.replace(' ','').replace('(','').replace(')','').replace('/','')+('.7.csv')
    print(save)
    df.to_csv(save)

Key_Stats()

其中嵌套try-catch块是由于股市周末没有S&P 500值，因此减去3天的时间（单位：秒）；
相比于TotalDebtEquitymrq.6.csv，本次生成的TotalDebtEquitymrq.7.csv缺少部分数据，经调试发现大部分缺少数据是由于来自YaHoo Finance的HTML文件中没有当天的stock_price。

调试输出

TotalDebtEquitymrq.7.csv

最后编辑于：2017.12.06 05:07:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,198评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,663评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,985评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,673评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,994评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,399评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,717评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,407评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,112评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,371评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,891评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,255评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,881评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,010评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,764评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,412评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,299评论 2赞 260

MachineLearning.1.如何使用ML进行股票投资.Day2

4. Parsing data

5. More Parsing

6. Structuring data with Pandas

7. Getting more data and meshing data sets

推荐阅读更多精彩内容