上市公司历史新闻数据分析（一）

上一篇讲到如何爬取新浪财经和每经网新闻数据，今天分享一下小编如何分析数据。在分词上，小编用了jieba分词类库，但只是利用jieba的词库来分，效果还是没能达到需求预期。所以得要自己加载自定义字典，比如停用词表和新词表。停用词表在https://github.com/dongxiexidian/Chinese/find/master上可以随意下载，新词表的构建就要看分析什么了。比如股票名称，比如，“ST保千里”会被分成“ST”、“保”和“千里”；“尔康制药”会被分成“尔康”和“制药”，这就很尴尬了。

所以我以防万一，就将三千多只股票名称都加载进新词表，然后可以看到，效果很明显。除此之外，一些新词的出现，比如“区块链”，虽然不新，但是对于分词库来说是新的，分出来很可能是“区”和“块链”，所以就要在引用新词表前，添加你觉得有必要的新词。

分词后的结果就是特征集，复杂的特征集势必要降维处理。jieba提供的关键词提取算法和Gensim的LDA主题提取模型（即隐含狄利克雷分配，Latent Dirichlet Allocation），本质上都是进行降维操作。比如用之前在基于Gensim的文本相似度计算中使用的例子做LDA主题分布，如下，可以看到每条新闻的主题。

下面来看看怎么用上抓取的数据作分析。我抓取数据的来源暂时只有新浪财经和每经网。在新浪财经的网页上可以很快识别股票代码，但每经网很多时候只有股票名称。这时候就需要一个关于三千多只股票基本信息作为映射表。这里我选择从Tushare上直接获取放到数据库。在分完词后，需要让程序识别这几个字是代表一只股票而不是“嗯哦啊好”，那么就需要一个股票名称集合作为判断标准。最后映射出股票代码是为了往后的分析，如下图。

可见每条抓取的新闻基本上都映射到一只或多只股票代码。假设我们想知道一只股票相关的新闻有哪些，并导出到csv文件或者储存到新的数据集中，也不难，只是查询聚合的过程。现在我们想判断这条新闻是利好、利空还是中立的，完全走自然语言处理的路还是有点远，但如果和股票价格关联起来处理会显得很舒服。在做这一步之前，本来也想获取Tushare的分笔数据和日线数据。但很可惜，Tushare的分笔数据才抓了几天的量就断请求退出，日线数据还不多。所以后来选择从通达信下载日线数据到存进MongoDB了。回到正题，将新闻时间对应股票价格时间，假设新闻发布后特定天数内（有些论文设3天），股票价格上涨则认为该新闻利好该只股票，相反则利空该股票，价格持平则中立。比如将山西焦化（600740）的历史新闻抽出并贴上性质标签（利好、利空、中立），存到新的数据集，如下图：

上市公司历史新闻数据分析（一）

推荐阅读更多精彩内容