开放数据的那些迷与思:小记上海开放数据专题活动

144
作者 Feng
2014.03.24 19:12* 字数 1607

两周前有幸在上海的 TED Meetup 做了一场关于「开放数据」的活动,拖拖拉拉到今天总算有时间写一下这场活动中一些精彩的讨论。

开放数据是否会造就终极「老大哥」?

活动一开始先是播放了万维网之父 Sir Tim 在2009年做的一场 Ted 演讲,其实这场演讲本身并不单单是说「开放数据」,而是涉及了他本身对下一代万维网——语义网的设想。语义网的设想核心之一是链接数据(Linked Data),即能够互相超链接的数据,而其发展过程中的重要一环就是去将数据开放,使得更多数据得以被链接。

而基于此理念,现场的讨论也就集中在了开放数据,不单单政府开放而且各级机构、单位、甚至个人都开放数据,最终是否会最后使得政府拥有更大的能量来监控一切。特别是考虑到像美国NSA计划的曝光,是否开放数据会为政府机构提供免费NSA?谁来监管对这些数据的搜集和使用?

对于这一点,小伙伴们主要讨论了未来个人隐私数据的控制。有人提到,对于个人数据,首先要想办法从服务提供商处取回自己的数据,以进行监管。这一点在近几年来都有一定的初步计划,比如美国政府的 Green ButtonBlue Button 就将个人的能源使用数据和健康数据返还给个人自由下载利用,Google 也有相应的计划将用户使用数据返回给个人。

但这也仅是第一步,更长远的来看,我们需要改变的是目前用户与服务提供商之间的关系。现在的模式是我们自愿将数据完全交给服务提供商来换取服务,而未来,我们需要完全掌控自己的个人数据,服务提供商如果想要利用我们的数据,那么就需要至少取得我们的许可,甚至需要付费访问。而这种模式也将会有利于个人去开放一些自己的隐私数据(比如基因数据等等)供研究机构使用,甚至供商业公司使用。

当我们对自己数据有着更好的掌控之时,至少老大哥对个人隐私的窥探可能会受到一定的阻碍,但还有更多是需要我们去努力改变从而确保万维网的更链接、开放不会导致数据寡头出现,从而威胁到我们对万维网的自由使用。

开放数据在中国,开放有何难?

活动的第二部分是由我介绍了中国开放数据运动现状,整个的演讲围绕着「中国大陆开放数据运动时间线」开展,介绍了国内对开放数据理念的认知情况,政府相关工作情况以及民间社区发展情况。

在演讲后的讨论中,有人提问,数据开放对于政府部门而言不是很简单吗?他们本身就有那么多数据在网上公开可以找到,现在只是要他们拿出开放格式的,为什么进程那么慢? 这里实际而言有两个问题,一是对于开放数据,不是简单将数据拿出来就结束了。这涉及到开放数据的法律体系和文档完善的问题。所谓法律体系,这里指的便是开放数据所应有的开放授权协议,即一个授予所有人无限制使用与分发该数据的权利的协议。这一协议的建立决定了开放数据运动的成败,需要各政府部门认同相关理念并有良好的法律、政策框架来确保开放授权协议的运作。其次,对于开放数据而言,为了使用者能理解和正确使用数据,必要的文档是非常需要的。这里说的文档需要阐述数据的收集方式 ,数据的编码方式,数据涉及的年度范围等等。缺失这些元信息,数据即使开放,也无法真正被使用。

另一个非常有意思的问题涉及了政府不开放数据的常用理由(其他常见理由,可参见这里这里这里这里):我们害怕人们误读数据而造成负面影响, 所以我们要等人们有足够能力和素质来正确理解数据才开放我们的数据。针对这一问题,其实很久之前加拿大的开放数据专家 David Eaves 就曾经撰文指出,类似于过去是否要造图书馆让人们获取知识一样,现在开放数据是为了更好地让人们具备处理和理解数据的能力。所以应当在人们具备数据解读和运用能力之前,就大规模开放数据。然而,在中国,我们获取要考虑另一个问题,那就是人们往往对于政府的作为都是情绪化的。比如,对于空气质量数据,就曾经被指责和美使馆数据相差太多,而被人们怀疑造假。但实际上,之前已经有人做过相关的研究,发现国内空气质量数据其实比美使馆的数据来得更靠谱,因为国内的数据是从多个监控点搜集回来再综合得到的结果。因此,这里如何让人们更为理性地去使用数据,以及政府应当如何更好地和人们沟通数据背后的故事(采集方法等),则成为一个需要好好研究的问题。

虽说国内开放数据运动的路还很长,尚有很多工作要做,但随着国内开放数据的呼声日益高涨,国内无论是政府还是民间社区目前都应当开始准备好迎接开放数据的时代。

漫谈开放数据与发展