对于开放环境数据的一些思考

96
Feng
2015.08.12 10:03 字数 4392

授权信息

请第三方(非商业机构)转载时在转载内容前添加下列文字:「本文作者为高丰@开放数据中国,内容授权于知识共享协议 CC-BY-NC 国际4.0 (署名-非商用) 之下」,作者保留对不按授权要求转载的第三方追究责任的权利。

商业机构(包括通过流量、广告等方式运营的自媒体机构、传统媒体以及商业机构所开设的社交媒体等)请先通过邮件书面取得授权再行转载。

作者信息

高丰,英国南安普敦大学计算机博士,现为开放数据与社会创新独立咨询顾问,兼复旦大学数字与移动治理实验室特邀研究员。自2013年起,他担任英国开放知识(原英国开放知识基金会)大使,在中国大陆地区倡导、推广、支持开放数据运动,后于2014年2月联合发起开放数据中国(opendatachina.com),致力于打造中国开放数据生态圈。高丰先后作为受邀专家参与开放数据指数(open data index),开放数据晴雨表(open data barometer),英国城市级别开放数据普查等研究和咨询项目。他已和英国开放知识、开放数据合作伙伴计划、世界银行、瑞士Lift创新会议等在开放数据事务上开展过合作。你可通过fenggao@opendatachina.com 联系他。

前言

实际上针对这个题目,早在14年中,我尚在青悦参与一系列环境数据整理与开放的工作时,就已有了动笔的念头。而在14年末,受邀在芯世界创新中心所举办的「DIY My City」会议谈智慧城市和开放数据时,也曾从环境数据角度谈及了开放数据所能带来的智慧环保,但无奈之后要参与多项工作,一直未能找到机会系统地对这个话题进行整理。恰逢此次8月14日,上海青悦将在北京组织「环境数据开放与应用分享沙龙」,邀请了来自环保部政研中心、中国清洁空气联盟、南方周末、阿里巴巴公益基金等不同领域的利益相关者共同探讨环境数据开放,我才能找到时间静下心整理出了这篇文章,写下自己对该话题的一些思考,希望能对讨论有所助益。

何为开放数据

既然讨论的是环境数据开放,那么自然要先对开放数据予以解释,并将其和相近的「数据共享」与「信息(数据)公开」加以区别说明。

要理解开放数据,就先要了解「开放」究竟意味着什么?根据英国开放知识基金会(Open Knowledge Foundation) 的定义,开放(openness)需具备以下3项基本元素:

  1. 非歧视性:数据若开放,则其对任何人都开放。
  2. 机器可读性:数据若开放,则应是机器可读格式,例如对于表格数据,应该采用csv,而非pdf。
  3. 开放授权性:数据若开放,则其对应授权条款应确保使用者自由免费访问、获取、使用、加值、演绎、拷贝、传播的权利。

共享数据,公开数据,开放数据间的区别总结 (引自开放数据≠共享数据≠公开数据!一文)

由以上开放性的定义来说,我们可以比较一下开放数据和传统信息公开要求下的数据发布有何不同。例如,目前按照环保信息公开要求,各城市均公开发布了本地空气质量监控的数据,但对于除上海之外(其提供下载)的城市而言,这些数据的发布都是通过交互网页的形式提供给大众的,你并不能在页面上直接下载到某一时刻所有监控站点的监测数据,更无法下载到某一历史时间段上的监测数据。这样的情况下,数据虽然公开,但仅限于「看」,而无法真正去「用」(可以思考一下,要计算一年内平均pm2.5值,或者绘制出某一特定监测站一个月内pm2.5的变化,在无法下载数据的情况下,你能如何办到?)。


北京空气质量实时系统的截图。该系统基于Silverlight开发,使得数据爬取都十分困难,更不用说非技术人员基本没有可能获取到历史的空气质量数据,除非每日按时将数据摘抄下来。

所以,开放数据中的「机器可读性」对数据释放的格式设定了标准,即一个数据开放的话,其一定被提供在一个可用也易用的数据格式下,通常我们说表格数据就采用CSV(Excel的XLS也可以),因为这种格式你能轻易使用文本编辑器或Excel打开从而进行必要地加工处理,而PDF或者网页在这种情况下就不满足条件,因为你无法对PDF或网页上的数据做便捷的数据加工。

另一方面,开放数据也强调数据的完整性,特别对于传感器采集的数据,开放数据应当是拥有完整历史记录的数据。如上述空气质量例子中,如果空气质量数据被发布为开放数据,则其历史数据都应当可以下载,两项情况下,用户可以选择一次性下载所有历史数据,或者选择下载指定时间段的数据。

而相对于数据的共享,数据开放的差异则集中体现在非歧视性和开放授权性两点。在数据共享情况下,我们说数据可能并非是所有人都可以访问到,而只限定某一特定群体(比如合作伙伴)才能访问,而数据开放则所有人没有差异化地都能访问到这些数据。而在授权上来说,数据共享通常会限定使用者在特定目的下使用数据并且不可以再传播给第三方。而开放数据则不同,一般开放数据习惯采用知识共享协议(CC协议),从而确保第三方在获取数据后可以自由、免费地使用、加工、复制、分发这些数据。

对开放环境数据的尝试

在开放环境数据上,英国 Digital Catapult 所建设的 Environment Data Exchange 致力于提供一个统一的数据平台,帮助NGO、政府、企业、公众一站式查找到所需的环境数据资源。目前该平台已经有英国环保部、世界银行、牛津洪涝网络等不同机构提供数据,数据集已达到300 多项。其中既包含了开放的数据,也包含了一部分共享数据。


英国 Environment Data Exchange (https://www.environmentaldataexchange.org.uk/)

而在印度,社会组织也不断在推进政府开放数据的日程,特别是推动政府去开放环境相关的数据。不同的NGO通过在Data.gov.in上提交数据需求,直接向政府主管部门申请,举办工作坊进行沟通等途径,已然促使印度政府开放了700余项环境数据。

美国 Data.gov 则专门针对气候变化开辟开放数据专题,NASA等一系列机构开放了大量卫星图片、传感器监测数据用于环境治理。而美国的另一项针对水环境的 Open Water Initiative 则野心更大,其期望将目前不同机构采集管理的零碎水环境数据完全整合进一个关联的国家水环境数据框架中,从而进一步开放水环境数据作为服务面向大众提供,激发大众对这一类数据加值利用的兴趣。计划中,它不单将整合描绘事实的水资源数据和水质数据,也将同时整合人们如何使用水资源的数据,比如多少农业用水回灌入河道,饮用水消耗量多大等等,从而为不同利益相关者提供完整的水环境数据全貌。


美国开放水数据计划项目框架示意图,图片来自 http://acwi.gov/spatial/owdi/

除了政府之外,环境数据也由不同的非政府组织在采集与开放。比如关注于亚马逊热带雨林的 InfoAmazonia 项目号召记者、NGO工作人员等将雨林相关的图片、数据、报道、音频等开放共享,从而能够作为不同的图层叠加到地图上形成一张高度交互、情境相关的亚马逊热带雨林地图,帮助不同人员了解雨林内正在发生的事情,了解哪些地方需要NGO的投入等等。


InfoAmazonia 不但提供交互地图,其底层数据也尽可能开放给大众下载再利用 。截图来自http://infoamazonia.org/

而在国内,由上海青悦牵头,也于2014年开始了开放环境数据计划。计划初始主要关注了两个方面的数据:一为空气质量数据,二为水质量数据。 就空气质量数据而言,本身已经由pm25.in完成了全国监控点的数据汇总并输出为API,但由于该平台所提供数据均为实时数据,缺乏对历史数据的积累,因此青悦所做工作便是基于其API进行历史数据的存储,从而构建一个自2014年起积累的历史空气质量数据库(air.epmap.org)。而对于水而言,初步工作主要聚焦于地表水监测数据(wat.epmap.org),通过爬取「国家水质自动站数据实时发布系统」的数据,从2014年起积累地表水监测点的水质数据。


青悦数据开放平台(epmap.org/ngo/page/open

另一方面,青悦开展的饮用水溯源计划则着重于通过数据还原家庭饮用水自上游水,到水源地,到取水口,到自来水厂,直到家中自来水管(二次供水)整条供水链上每一个环节的水质。该项目针对上海进行了数据采集的试点,尽可能采集了每一个环节的水资源及其水质的数据。而在这个过程中,青悦也注意到目前公部门在公开相应水环境数据的过程中尚有诸多不足,大量数据未得到公开,或者公开后更新不及时,或者不同部门公开的数据格式不同等。基于这一实际情况,青悦进一步建立了一套针对水环境数据公开的评估框架,先后针对上海、北京、深圳等地开展了政府和事业单位在公开发布相应水环境数据的情况(epmap.org/ngo/page/report)。

未来可以探索的方向

在谈开放环境数据前,我们饶不开的一个问题是到底现在有哪些数据已经被采集了,甚至已经被公开了,又公开在哪?我们可以对于目前政府、高校、科研机构、 媒体、NGO等已经公开的数据进行一次盘点,形成一个统一的环境数据索引目录,从而即使在一些数据尚未开放之时,也能促进不同利益相关者先行发现数据,进而找到方法去访问数据。进一步,一个类似于前文提到的环境数据交换平台是我们需要的,不同来源的数据可以在其上得到索引,供人们检索,并且可以进一步直接下载或者共享交换。

另一方面,从青悦的工作中我们也发现目前环境数据的发布毫无规范可言。对于政府负责采集和发布的数据,虽然一系列数据标准存在,但其均只规范数据采集,而对数据到底如何发布则没有说明。比如,「GB 5749—2006 生活饮用水卫生标准」和「CJ/T 206—2005 城市供水水质标准」虽然规定了对于自来水处理厂的出厂水每日要做9项监测,但国家和地方上鲜有对该数据是否一定要公开、公开几项作出明确规定,而给予了数据管理方自主裁定权利去决定是否公开、如何公开。这样的情况下,各地方的数据,甚至一个地方不同水厂的数据都有可能在数据的内容及时间颗粒度上不一致,对数据的加值利用造成了极大的不变。

因而,从数据开放的角度来说,我们不单要推进的是数据应当从公开走向开放(即对格式、对授权有更高要求),还要对数据的标准予以规范。国际上不乏民间团体对数据标准的建议(比如美国「为美国而编程」对美国餐厅卫生检查数据设立的标准等),国内的NGO、科技团体、媒体等是否能够沿着这一方向去对数据发布进行规范,按照自身使用需要去提出数据的标准(应该包含哪些内容、时间颗粒度多大、更新频次多快等),是很值得探索的一件事。

结合上述两点,我们可以设想未来在开展某一环境垂直议题时(比如某条特定河流的治理),是否能够通过数据开放来更好协调各利益相关者在议题上更为明确的分工以及资源投入?

面临的挑战

当然,对于数据开放,其本身就是一个新鲜事物,开展中自然挑战不断。

其中最为关键的是,对于数据开放,到底应该由谁来买单?比如说,对于青悦的工作而言,其实质是青悦作为一家NGO在整理并开放理应由政府去开放的数据,这样的情况下,谁来买单青悦所需要投入的人力和物力?而在开放之后,如果不收取费用,相应青悦能从该项工作中获得的是什么?作为一家NGO如何持续生存下去?同时,基金会等资助方以及对数据进行消费的高校、NGO同行、媒体等是否又认同数据开放工作的加值?

另一方面,对于开放自身所采集数据的NGO,又应该有谁来负责买单?是否本身NGO获得的项目资金就已经买单了数据开放的工作?如果说免费开放行不通而要允许数据交易,那么交易又如何体现本身工作的公益性?由NGO采集的数据,其数据质量和规模又是否真的能够有价又能有市呢?

立刻行动起来

无论如何,虽然前路还不明朗,但推动相关议题,我们目前还是有很多力所能及之事:

  1. 积极行动,告诉政府你需要更多开放环境数据
    实际上各地方已经陆续搭建起了开放数据平台,比如上海(datashanghai.gov.cn)、北京(bjdata.gov.cn)、武汉(wuhandata.gov.cn)等,而在这些平台上均有数据需求表格可以填写,告知政府部门去推动相应数据早日释放到开放数据平台。同时,上海空气质量数据在今年已经全面开放下载,各地方不妨以此为案例,去推动地方环保部门开放下载本地的空气质量数据。

  2. 从自己做起,开放能够开放的数据
    从一个小数据集开始,我们的NGO甚至个人都可以开始开放环境数据。比如各地都有所开展的测空气质量、测水质的一些数据,是否能够留存开放,以供未来再进一步使用?这些都是我们现阶段可以尝试去做的

  3. 传播理念,向身边的同事、合作机构宣传开放数据
    开放数据的推动离不开文化的改变,在大多数人不了解相应理念的前提下,想要去做相关工作,并让别人认同自己所做的开放数据工作就非常困难。我们不妨从身边人开始,向他们介绍开放数据是什么,普及其理念,说不定将来我们就有更多志同道合的战友一同开放数据,从而能够更好地针对议题去合作。

漫谈开放数据与发展