中文 | English
世界智能大会 迈向大智能时代 2017.06.29-06.30 中国 天津
首页 > 新闻中心 > 中国工程院院士邬贺铨:大数据共享与开放及保护的挑战
中国工程院院士邬贺铨:大数据共享与开放及保护的挑战
 2017-06-01 邬贺铨  中国信息安全 
  • 中国工程院院士  邬贺铨

大数据包括物理空间的数据、信息空间的数据和智慧空间的数据,这是三元数据。作为网络层面的数据,包括自媒体数据、富媒体数据、基层网络数据、日志数据。麦肯锡曾统计,大数据的利用能给美国的保健、欧洲公共管理服务的提供者等带来数千亿美元的年度价值,会给经销商带来60%的利润增加,会给制造业带来50%的成本降低。如果政府在保证国家安全和公民隐私的情况下开放数据,可以带来年度全球经济价值32000亿美元到54000亿美元,所以,大数据本身带来的产业价值不可低估。

一、大数据的共享与开放

国务院《促进大数据发展行动纲要》提到,推动政府信息系统和公共数据的互联共享,避免重复建设和数据打架,增强政府的公信力,促进社会信用体系建设。

大数据共享包括政府部门之间的数据共享、跨行政区域政府间的信息共享、政府与企业间的数据的合作和共享、企事业单位之间的数据共享等。

政府层面,需要设立大数据协同管理机构,促进政府部门间的数据共享,但是必须要健全大数据相关制度框架和制度体系。另外,需要进一步建立基础数据库,一方面要集中存储被共享的数据,同时进行清晰校验和整合,提供可以共享的目录,以便用户可以接入和收取这些数据。当然,还要规定访问的权限和进行灾备等。

2013年,在北爱尔兰召开的G8会议,签署了《开放数据宪章》,提出了开放14个重点领域数据。要求发布的数据不是一般的数据,而是高价值的数据,不仅仅是加工过的数据,还要有源数据。以往我们认为,政府发布的数据是加工过的,实际上只要不影响国家安全和公民隐私,政府应该开放原始数据。开放的数据要完整的、重要的、及时的。共享是政府部门之间、政府和单位之间,开放是对社会。

美国政府要求开放数据要屏蔽掉隐私,注意隐私安全,数据内容包括交通、空气污染、环境、支付等。美国政府开放数据同时开放了数据挖掘工具,帮助老百姓利用这些数据,在政府开放数据的平台收集了老百姓通过挖掘这些数据得出的可视化的结果,有利于公民了解社会。

根据不完全统计,中国政府数据开放平台超过40多个,其中沿海经济发达地区占总数的70%,西部中部比较少。虽然中国政府开放了教育、医疗、文体、环境等方面的数据,但是开放数据的总量偏低、结构化程度低、数据质量不高、民众参与反馈不准。

以北京市政府开放数据为例,2016年,北京市政府主动公开政府信息超过100万条,跟2015年差不多,其中主动公开的文件不到1万件,主动公开的重点政府领域信息73万条。北京市公开的政府信息中,关于食品安全标准和食品生产的内容占了一半,关于企业信用系统的数据占40%,两项加起来占了90%,剩下的只有10%。这10%包括政府的三公预算、农民征地和政府定价。公民关心食品安全,所以,这方面的数据比较多。

联合国电子政务发展指数包括三项,信息基础设施、人力资源和在线服务情况。其中,在线服务与开放数据有关。据统计,2016年开放电子政务数据发展最好的是英国,中国排第63位。政府开放数据需要技术框架支持,包括开放数据管理、开放数据技术和开放数据门户。

数据共享和开放现在面临三大挑战:第一,不愿意共享开放,政府部门各自为政、把数据开放当成自己的权利。很多政府部门以信息不对称作为手段,缺乏激励机制,和技术部门共享数据还得向公众开放数据,得不到商业回报,因此职能部门对于数据开放消极被动。第二,法律法规制度不够具体,不清楚哪些数据可以跨部门共享和向公众开放,数据信息的共享开放有一定的风险,搞不好把一些应该保密的数据开放了,搞不好泄露了公民隐私,责任很难界定。第三,缺乏公共平台,共享渠道不畅。过去信息的传递多数是部门之间通过电子邮件进行,安全性、保密性、可持续性很难保证,没有统一的标准规范,不同职能部门对数据的采集记录标准千差万别,统计口径和时间不一致。数据开放需要脱敏,缺乏必要的技术和人才支撑,很难按照技术标准来规范。

二、大数据的流通与交易

数据有提供方和使用方,很多时候,数据需要通过中介方进行交易。政府开放的数据是脱敏以后的原始数据,数据挖掘公司将政府数据加工后出售给数据使用方、行业户。一般来讲,数据生产者很少直接面向最终用户,大多通过中介渠道实现自身数据的变现。例如,推特(Twitter)本身不直接销售数据,而是把数据授权给好几个公司售卖。目前,美国的数据中介本身也是一个大产业,交易数据在2012年的规模已经达到1500亿美元。

大数据交易的关键是对数据质量的要求,包括数据的准确性、真实性、完整性、一致性等。关于交易数据合法性、及时性、可用性、安全性等问题,都是现阶段我国家数据交易所面临的问题。

政府的数据不存在提供给中介方交易的问题,当然,中介方可以收集政府的数据,进行加工。运营商收集的用户数据原则上所有权是用户,BAT收集的数据原则上所有权是用户,但是运营商和BAT拥有对数据脱敏及挖掘分析后加工数据的所有权。有数据的公司通过数据挖掘向政府和企业提供咨询报告,这类公司虽然没有数据所有权,但是有数据挖掘能力;而那些没有数据,但是有数据挖掘能力的公司,可以受委托完成数据挖掘。是否允许前者在保护隐私和国家安全的情况下提供数据,是否允许后者受委托进行数据挖掘后利用数据为非委托方服务,这些问题现在还没有明确规定。

此外,没有数据也没有挖掘能力的公司,可以作为中介平台,但是是否可以允许其截留数据呢?中介方收集了政府开放的数据据为己有并且出售是不是合法?因此,关于在数据源的稳定性、更新频率和数据扩散等方面,也需要相关规定给出明确的界限。

精加工的数据、可视化的数据怎么定价,怎么衡量数据挖掘的工作量,一次性买断的数据和可以重复多次出售的数据怎么定价,数据的价值与时效性有什么关系,是不是需要有对数据评估的第三方机构,都是现阶段国内的数据流通和交易存在的问题。

政府和企业组织没有充分认识到用外部数据可以对自身工作和业务起到巨大的提升作用,所以,一般来讲,都很少利用外部数据。很多数据拥有者对数据蕴含的价值缺乏足够的洞察,不放心让自己的数据进入流通环节,担心企业隐私机密泄露。所以,流通也不够,交易也不够,利用更不够。

三、大数据利用和保护

首先,和国家安全有关的数据、和企业商业秘密有关的数据以及涉及公民隐私的数据需要保护。目前,欧盟制定了严格的数据保护法案,中国虽然有宏观上的数据保护要求,但是没有全面的数据保护法规。关于欧盟的数据保护,2016年4月,欧洲议会通过了《一般数据保护条例》(GDPR)。这个法案在2018年5月25日生效。这个数据保护法案涉及欧盟单位对多元数据的处理,不管在欧盟内部处理,还是在欧盟外部处理,都要受这个法规管。要注意的是,处理者在不在欧盟里不重要,但是欧盟消费者都要受这个管理。如果中国企业把微信支付宝用到了欧洲,那么,一样也要受这个法案管理。

多元数据是跟个人隐私、专业、公共生活有关的任何信息,包括姓名、照片、电子邮件地址、工作表现、经济状况、健康状况、个人偏好、兴趣、IP地址等。针对个人信息的收集、记录、组织、建构、存储、修改、咨询、使用、传播和其他应用,包括排列组合,都可以通过人工处理或自动化处理。

个人具有管理自己个人数据的权益,具有自己的数据被泄露能够获得及时通知的权利以及被遗忘权。对个人数据处理,要合法公正透明,必须有规有法。只有为了公共利益或历史研究,个人数据才能长时间存储,其他目的个人数据不能长时间存储。同时,还要保证收集的个人数据有技术措施保证,不能受非法授权、非法处理、遗失丢失和损毁。

并不是说个人数据不能处理,符合规定的可以处理,例如本人同意可以作为一个或多个特定目的的数据。个人数据处理是为了保护自己,保护一个自然人的切身利益;为了公共利益,为了追求合法利益的必要,允许商业利用。商业部门、企业处理个人数据,首先是为了合法利益,当然不能侵犯提供个人信息数据的消费者的利益,尤其是儿童。现在手机的几乎所有APP都收集个人信息,如果是为了合法利益的,是被允许的。有个社会调研,关于是否愿意为了将来应用资费上的优惠牺牲隐私,全球有27%的人表示可以牺牲隐私,中国有38%的人表示可以牺牲隐私,更多中国人认为隐私不重要,反而优惠更重要。

数据的传输存储和开发要有要求。所有的软件,包括移动应用的APP,在开发阶段和运行数据处理阶段要保护个人数据的隐私。数据控制也含APP,要有充分的技术和措施,确保数据和移动应用的完整性,必须应对数据处理面临的风险。欧盟提出,如果一个政府在云里存储了数据,就是管理者,应该对数据所有的保密、安全负责。所以,云平台有云平台的责任,存数据者也有他们的责任。该法规不受限于公司国籍,不受限于云服务的地理位置,如果在中国存了关于欧洲公民的个人数据,这个法规也适用,所以,在中国的云平台也不是什么数据都存进去。目前,80%的云服务不会在合同终止的时候立即删除客户的数据,58%的云服务不能提供IT所有权的保证。

我国也有一些关于数据开发应用的文件,工信部出台的“大数据产业发展规划”,2016年出台的“网络安全法”,都提到对个人信息和重要数据的境内存储,需要保护信息安全和个人隐私。但是,跟欧盟的法规比,我们的规范都很宏观,真正违反了会怎么样,并没有规定。

四、结语

数据的价值在于融合与挖掘,政府数据对公众的最大利益在于共享与开放。数据流通与交易有利于促进数据的融合挖掘。数据的使用必须面对保护的责任与义务,尤其是对个人隐私数据的保护。欧盟提出的GDPR,将数据保护的严重性提高到前所未有的程度,需要引起我们的高度重视。数据的共享开放、流通交易和保护与安全,对数据技术提出研究挑战,数据的共享、开放、流通、交流、使用和保护对法律的制定与执行提出了很高要求,同时还需要平衡数据的保护与数据的开发利用。(本文刊登于“中国信息安全”2017年第5期)