Google Dataset search的价值何在?

Google推出Dataset search

结论

Google search让信息垂手可得,Google dataset search让数据垂手可得。
从IT时代,到DT时代,真的来临。
Google dataset search解决了数据科学家、研究学者、科学家、记者等人员“数据从何而来”的问题,通过聚合互联网上的开放数据,提供数据搜索引擎,让数据垂手可得。


Screen Shot 2018-09-06 at 20.22.51.png

Screen Shot 2018-09-06 at 20.23.59.png

1. 价值

基本上为人工智能机器学习所需要的语料提供了一个聚合、检索平台。可以检索互联网上公开的数据集。提供开放数据集的检索手段,为数据科学工作者、数据新闻记者、科学家解决了数据来源问题。

2. 开源数据

Google datase searh搜索的数据集来自互联网上各中网站上公开的数据。
在Google dataset search出现之前,已经有很多开源数据网站,开源数据检索引擎如kaggle

2.1 Kaggle

2.2 zenodo

https://zenodo.org/

2.3 figshare

https://figshare.com/ 科学数据开放访问网站。可以找数据,也可以创建数据。

2.4 ceicdata

https://www.ceicdata.com/zh-hans,宏观微观经济数据体验最全面的经济数据库,覆盖超过195+个国家。

2.5 google publicdata

Google攒的一些数据并公开了。
https://www.google.com/publicdata

2.6 加拉大政府公开数据

https://open.canada.ca/

2.7 DataHub

https://old.datahub.io/ 用户可以上传数据,或者检索数据。

2.8 英国政府公开数据

https://data.gov.uk/

2.9 世界银行开放数据

https://data.worldbank.org/

2.10 data.world

这个网站很不错,数据社交的世界,可以上传数据,也可以下载数据。
https://data.world/
....
互联网上的公开数据太多了,现在好了,google提供dataset search工具,可以检索这些互联网上公开的数据。

3. 谁会受益

3.1 机器学习开发者

可以下载很多语料用于机器学习的模型训练。特别是NLP学习者可以检索到好多有用的语料数据集。比如我试了一下word vector,


Screen Shot 2018-09-06 at 19.49.55.png

3.2 经济分析师

经济分析师们可以直接检索下载各类经济类数据集,比如中国的GDP等宏观经济数据。


Screen Shot 2018-09-06 at 19.58.52.png

3.3 经济研究学者

经济研究学者们可以很方便的得到人口、居民消费等数据了。


Screen Shot 2018-09-06 at 20.01.44.png

Screen Shot 2018-09-06 at 20.04.22.png

3.4 数据科学家

大数据行业的开发者们,数据学家有福了。

3.5 记者

记者调查问题时可以使用。特别是数据新闻类的写作,记者可以利用google dataset search。

4. 数据类型

4.1 机器学习训练用的语料数据

比如wordvector等。

4.2 宏观经济类数据

包含世界各国,各产业宏观经济数据。

4.3 人口数据

4.4 居民消费数据

4.5 世界各国政府公开的数据

Screen Shot 2018-09-06 at 20.08.12.png

4.6 学术数据

4.7 气候数据

4.8 股票价格数据

4.9 航天等科研领域数据

米航空宇宙局(NASA)や米海洋大気庁(NOAA)のほか、Hardvard大学の「Dataverse」などの学術機関のレポジトリのデータが情報提供者や更新日などの情報とともに表示される。

推荐阅读更多精彩内容