股票数据分析(一)数据获取

前段时间开始做股票数据分析的业余项目,希望能提高自己对大型数据量的处理能力。目前大致的想法是用python的tushare模块获取数据,用Java的框架做发布。

1.Tushare模块的说明

tushare是国内金融从业者@JimmyTu(挖地兔)搜集国内各个公开渠道的股票数据接口,并把这些接口整理后用python写的一个模块。文档地址为:http://tushare.org/index.html

首先说明一下tushare获取到的数据格式,这里以分笔历史纪录交易为例:

import tushare as ts
df = ts.get_tick_data('600848',date='2014-01-09')
df.head(4)
     time       price change  volume  amount  type
0    15:00:00   6.05     --       8    4840   卖盘
1    14:59:55   6.05     --      50   30250   卖盘
2    14:59:35   6.05     --      20   12100   卖盘
3    14:59:30   6.05  -0.01     165   99825   卖盘

请求得到的结果是pandas模块中的一种基本数据结构类——DataFrame,这是一种类似二维表的数据结构。DataFrame类提供了多种数据处理、存储的方法,其中也包括了将数据存入数据库的to_sql方法,更多用法可查阅pandas的官方文档。

2.数据库设计

目前每日分笔数据采用动态建表的方式保存,即将每天所有股票的分笔数据存储在一张以当天日期命名的表中,并且间隔一定时间周期后再分库。

3.代码

以下为一个初步的使用多线程请求历史分笔记录的python3代码

# -*- coding: utf-8 -*-
"""
Created on Fri Jan  2 12:37:43 2017

@author: jerry
"""

import tushare as ts
import time
import queue
import threading
import pandas as ps
from sqlalchemy import create_engine

THREADS_NUM = 25  # 采集线程数
THREADS_EXITFLAG = 0  # 线程退出标志
TICKS_DATA_DATE = '2017-01-04'  # 指定采集日期
MYSQL_ENGINE = 'mysql://root:pwd@ip:port/dbname?charset=utf8'

class GetStockData(threading.Thread):
    def __init__(self, threadID, q):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.q = q

    def run(self):
        print ('线程%s开始下载' % (self.threadID))
        self._process_data()

    def _process_data(self):
        engine = create_engine(MYSQL_ENGINE)
        while not THREADS_EXITFLAG:
            if not self.q.empty():
                code = self.q.get()
                remain_num = self.q.qsize()
                tick_data = get_tick(code, TICKS_DATA_DATE)
                #根据当请求的股票当日停牌时,返回的数据有三行
                if len(tick_data) > 3:
                    save_to_mysql(TICKS_DATA_DATE, tick_data, engine, code, remain_num)
                time.sleep(0.05)
            else:
                break

def get_stock_basics():
    """
    获取当日股票列表
    Return
    --------
    DataFrame
    """
    basics = ts.get_stock_basics()
    return basics

def get_tick(stockCode=None, date=None):
    """
    根据股票列表的股票代码获取当日/指定日期历史分笔
    Return
    --------
    DataFrame
    """
    tick_data = ''
    if date != None and date != '':
        tick_data = ts.get_tick_data(stockCode, date)
    else:
        tick_data = ts.get_today_ticks(stockCode)
    if not tick_data.dropna(axis=0, how='any', thresh=None).empty:
        tick_data.insert(0, 'code', stockCode) #插入股票代码字段
    return tick_data


def save_to_mysql(tablename=None, data=None, engine=None, code=None, num=None):
    """
    保存获取的数据到MySQL数据库中
    Return
    --------
    """
    for i in range(3):
        try:
            data.to_sql(tablename, engine, if_exists='append')
            print('save %s %s' % (code, num))
            break
        except BaseException as e:
            print ('Save Error %s ' % (code))
    return


def main():
    #    reload(sys)
    #    sys.setdefaultencoding('utf8')

    stock_codes = get_stock_basics()
    threads = []
    try:
        """
        根据股票代码列表创建队列
        """
        stocks = queue.Queue(len(stock_codes))
        for code in stock_codes.index:
            code = str(code)
            if (len(code) != 6):
                code = (6 - len(code)) * '0' + code
            stocks.put(code)

        """
        创建并运行线程
        """
        for n in range(THREADS_NUM):
            thread = GetStockData(n, stocks)
            thread.start()
            threads.append(thread)

        while not stocks.empty():
            pass
        print ('数据请求完毕。')
        THREADS_EXITFLAG = 1

        for t in threads:
            t.join()
    except BaseException as e:
        print ('Error', e)
    return

if __name__ == '__main__':
    print ('开始请求%s的数据' % (TICKS_DATA_DATE))
    main()

代码很简单,请求当日的股票列表,并将列表中的股票代码放入队列中,尔后开启指定数量的线程并根据队列中的股票代码请求数据,请求完毕后将数据保存至mysql数据库。
当然,以上只是个初步版本,还需要修改一些纰漏之处,并增加日志等功能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容