政企数据共享到底难在哪儿

陈永伟2019-09-09 16:39

从一本“文科生读物”说起

前几天,和几个朋友一起聊大数据问题。其中的一个做技术的朋友突然问我,“你最早是从哪儿知道‘大数据’这个概念的?”我略微整理了一下记忆,回答道:“应该是从涂子沛那本《大数据》那儿吧。”朋友听罢,冲我狡黠地一笑,说道:“嗯,我猜也是。你和我认识的大部分文科生一样,也是从这本和‘大数据’没什么关系的书开始知道大数据的。”

作为一个文科生,我确实感到了来自一名工科学生的深深“恶意”,也瞬间意会到了他要传递的“槽点”。是的,如果从技术的角度看,这部让涂先生一举成名的著作恐怕除了标题和“大数据”相关外,确实和后来大家所理解的“大数据”少有关联——即使以最为宽松的眼光看,这部书恐怕也只能算是一部大数据的案例集。而对于大数据的技术基础和应有逻辑,书中则鲜有提及。尽管这样的书会很对我这样的文科生胃口,但却很难入技术人的法眼。

不过,这儿我还是想为涂先生的这部书说几句公道话。事实上,作为一本普及书,它的责任更应该是侧重某些理念的传达,而不是像技术手册那样让人们获得细节性的常识。从这个角度看,这本“更适合文科生阅读”的《大数据》应该是成功的。它不仅在第一时间向人们普及了“大数据”这个概念,而且还先容了很多有意思的大数据案例。

在所有的这些案例中,最重要的可能就是在一开始讲述的美国《信息自由法》的出台始末。这段文字向读者展示了美国政府逐步开放数据的大致过程,虽不算长,但却很清晰。通过这段讲述,大家得以清晰地看到美国的数据开放是如何一路走来的。几年之后重读这段文字,我忽然有一些似莫名的熟悉感。

事实上,在这部书出版后不久,“大数据”的概念就兴起了。随着“大数据”浪潮的袭来,我国政府也开始了数据开放、数据共享的历程,这段历程其实与书中所讲的美国故事有很多相似之处。当然,和美国的实践相比,我国的数据共享历程还有十分鲜明的特点,其中之一就是:不仅由政府向企业、个人公开数据,还有由企业向政府部门,尤其是监管部门共享数据。这种双向的数据流动和共享,在很大程度上促进了政府与企业之间的数据共享,也对实现政、企协同治理起到了关键的作用。不过,和所有的新事物一样,这个过程也遭遇了很多困难,遇到了很多课题。或许,在若干年后,会有一本更为厚重的书来记录中国的这些实践。

政企之间实现数据共享的理由

为什么政府与企业之间有必要实现数据的共享呢?就其最为根本的理由来看,这是由“大数据”的特点决定的。众所周知,所谓的“大数据”并不仅仅是数量巨大,还要求有高的维度。如果某人拥有的数据维度是十分单一的,那么即使这些数据从数量上来看十分巨大,其分析价值也不会很高。

举例来讲,曾经有一个朋友花了很大的力气搜集了某个地区所有居民的姓名数据,然后来找我讨论可以做什么研究。当时我就很遗憾地告诉他,虽然搜集姓名数据的工作很庞大,但这样单维度的数据似乎除了可以分析出姓氏分布这样的简单信息来,也难以做出更多的研究。不过,如果大家可以同时搜集到居民的年龄、收入、工作状况等其他信息,那么可以研究的话题就一下子增多了。例如,大家可以看看在一个地区的大姓居民,到底是不是可以获得更高的社会地位和社会资本,进而获得更高的收入;还可以考察收入状况和起名习惯之间的关系……毫不夸张地说,当维度扩展时,可以从中挖掘出的信息就会以几何级数增长,数据本身带来的价值也会大幅度提升。

现在,政府和企业手中都掌握着很多数据,但它们所掌握的数据性质是各不相同的。总体来看,政府部门掌握的数据主要来自统计和因需要以政府力量进行的监测,例如工业普查数据、工商税务信息、实时气象信息等。这些信息,企业或个人都很难获得。即使可以获得,其成本也是巨大的。而企业手中掌握的则是相对来说更为微观的数据,例如企业销售的品类、交易流水、消费者特征等。这些数据都很细碎,但是政府要及时获得,也是十分困难的。在这种情况下,如果企业和政府之间彼此隔阂,仅利用自己的数据,那么所能达到的效率也会相对低下。

这里尤其需要强调的是企业因缺乏政府数据而受到的影响。一方面,出于成本的考虑,企业难以搜集某些数据,这会使企业在数据应用上的效率大幅度降低。举例来说,一些物流企业出于调度目的,需要实时的、细分地区的天气信息,但企业凭借自己的力量却难以获得这些信息。在这种情况下,企业就不能根据确切的天气信息进行精准的调度,只能退而求其次选择比较模糊的调度方案,因此势必带来效率上的一定损失。另一方面,一些重要的政府数据缺失还有可能导致企业的某些工作难以正常、合规的得到开展,一个典型的例子就是网约车行业。现在,各地纷纷制定了对网约车监管的细则。我注意到,在很多地方的细则中,都明文规定了刑满释放人员不能从事网约车的运营。我不想对这个规定本身是否合理进行讨论,单说在现行的条件下,网约车企业要按照这些规则对司机进行审核就是十分困难的。一个人究竟是否犯过罪、是否坐过牢,这是很隐私的数据,在通常的档案中并没有记载,只有公安部门掌握着相关的数据。如果公安部门不向网约车企业提供这些数据,那么网约车企业就基本不可能对相关信息进行有效的审核,也就更遑论要对这些规定予以严格遵守了。

基于以上两点理由,作为目前最大规模数据的所有者,政府在满足法律法规的前提下,向企业开放其手中的数据是十分有必要的。这不仅可以大幅度增加企业的经营决策能力,显著提升新葡京32450运行的效率,同时也可以帮助企业更有效地进行合规运营,从而对社会治理产生有效的促进作用。

当然,在政府向企业开放数据的同时,企业将自己拥有的部分数据分享给政府,帮助政府加强监管,也是十分有必要的。当前,新的企业、新的商业模式层出不穷,很多行业的情况都瞬息万变,这对政府的监管和治理也提出了严峻的挑战。尽管政府部门也针对相应的情况,加强了有关数据的搜集,但其滞后性是十分明显的,成本也很高。举例来说,近年来共享单车异军突起,一方面有效缓解了人们的出行难,但另一方面也带来了乱停乱放、占道严重等问题。政府花了很大的人力、物力进行整治,但在很长时间内效果并不好。其中的一个原因就是,政府并不能确切掌握企业对车辆的投放状况,因此就难以有的放矢地科学调拨整治人员。针对这一问题,很多城市都做出了让共享单车数据接入监管平台的要求,以保证监管人员可以实时监控到各地区的单车投放状况。不少案例表明,这样的要求确实在很大程度上让单车的摆放秩序获得了有效的改进。

政企之间实现数据共享的困难

尽管从理论上讲,打通政府与企业之间的数据壁垒,实施政企的数据共享可以大幅改进数据的利用效率,让企业的经营效率和政府的治理能力同时获得比较大的改善,但是在现实当中,要真正做到这一点还是面临着不少的困难。

先看政府对企业共享数据的困难。从目前看,它面临的阻碍因素主要有两个——

一是数据安全问题。政府手中的数据,有很多是涉及国家安全,或者涉及居民隐私的,这些数据如果开放给企业,很可能会引发不可控的后果。不少政府部门对数据的开放保持疑虑,很大的一部分原因就来自于此。

前面大家提过网约车合规需要公安部门的相关数据,我曾就这个问题请教过公安部门的相关专家。他们的回答是:一个人是否有前科,本质上是相当隐私的信息。当这个人刑满释放之后,他为了重新融入社会,会倾向于不让更多的人知道这段历史。而如果将数据开放给相关的单位,就可能会给他们的就业、生活制造很多麻烦。在一定条件下反而可能激化社会矛盾,带来很多不必要的问题。

公安的专家给出的这套理由也是很有道理的,但正是由于这个原因,客观上导致了网约车企业无法按照要求完成管理,也给其运营埋下了一定的隐患。这里面的复杂关系究竟应该怎么处理,恐怕还是值得思考的。

二是数据的口径问题。大家知道,政府的数据是通过各个部门搜集的,每个部门的数据搜集规则、流程都不尽相同,这就造成了最终数据在口径上未必会一样。在传统的统计条件下,统计系统会将各个部门的数据先进行汇总清理,最终拿出统一的数据予以公布。但这样的工作方式显然很难满足及时、准确公开数据的要求。

我曾接受南方某市的委托,为该市做营商环境评估。在这个过程中,需要10多个部门分别提供自己的最新数据。尽管相关部门的同志表面上都很配合,但他们在提供数据时都不约而同地表示出了犹豫。即使提供了数据,也会对我千叮万嘱地说,千万不能泄露出去。我对他们的小心态度很好奇,曾找一位同志私下问过原因。他给我的回答是,这是各部门的原始数据,而未来统计局公布的数据一定会和这有出入,如果有人质疑起来,可能会带来一些不必要的麻烦。

再看企业对政府共享数据所面临的障碍。在我看来,目前最主要的困难也有两个——

一是可能的数据泄露的风险。

某航空企业的一位管理人员曾和我说起:按照规定,他们必须将所有的乘客数据都上传给监管部门。但某一天,他发现监管部门正在和一家第三方数据企业合作,将他们上传的数据交由这家数据企业使用。他对此感到很忧虑,因为乘客的数据都是非常隐私的,如果这些数据在被数据企业利用的环节中发生泄漏,那么造成的后果将十分严重。尤其是如果泄露的信息涉及到欧洲乘客,根据欧盟颁布的《通用数据保护条例》,即所谓的GDPR,航空企业将面临巨额的罚款风险。

我不能确认这位航空企业管理人员所说的情况是否属实,但如果是真的,那么这个情况确实非常值得重视。从法理上讲,用户的数据是由企业采集的,它们就负有对这些数据进行保密的义务。目前,包括GDPR在内的大批法律法规都根据这点安排了非常严格的法律责任。但是,如果企业需要交给将数据上报给监管部门,而监管部门又把这些数据交给第三方,那就意味着企业将会面临着巨大的、不可控的信息泄露风险——即使它们对内部的风控做得再严格也没用。如果这个问题不妥善解决,那么企业的经营积极性就有可能受到很大的负面影响。

二是对数据共享的补偿问题。

大家知道,在数字新葡京32450社会,数据已经是重要的生产资料,也是企业的重要战略资源。为了数据的搜集和处理,企业往往需要投入巨大的成本,而这些数据本身也能给它们带来相应的新葡京32450收益。如果政府只是要求企业将数据拿出来用于单纯的监管用途,那么问题还不大。但如果政府像前面提到的案例那样,将数据给了第三方进行分析或使用,那就很有可能对企业的生产经营造成影响。基于这点,我个人认为,如果要求企业开放数据,那就好像是将企业的资产拿出来共享一样,如果不给予相应的补偿,就很有可能打击企业生产、搜集数据的积极性。

不过,究竟应该怎么对企业的共享行为进行补偿,以多大金额进行补偿,就又是一个难解的问题。虽然大家经常说数据价值巨大,但对于它究竟能在市场上值个什么价,却是不得而知的。事实上,由于现在在数据产权的认定问题上还没有统一的规定,数据的交易受限十分严重。市场上的大部分交易都是通过黑产形式实现的。这样形成的价格完全不具有参考意义,很难代表数据的真实市场价格。另外,即使大家知道了数据的市场价值,但对于共享给政府,主要用于监管的数据,显然不能照此索价。因此,究竟如何对企业的数据共享行为进行补偿,还是一个有待解决的难题。

三是由于数据共享带来的权利义务分配问题。

现在,大部分政府要求企业上传、共享数据的情形,都是为监管目标服务的。例如,交通部已经要求网约车企业将司机个人信息、订单信息、经营信息、定位信息、服务质量信息等数据都接入监管平台——先由网约车平台企业将数据传输至部级平台,然后再由部级平台将数据实时转发至相关省级平台及城市监管平台。这样做,当然是为了能够及时对网约车运营状况进行实时的监督,在出现问题时进行及时的干预,其初衷是非常好的。

不过,对这样的举措,我个人还有一些疑问。例如,当监管部门可以实时监控到所有网约车的运营状况时,如果这些网约车的经营出了某些问题,那么监管部门是不是应该要承担相应的责任,而与此同时,网约车平台的责任是不是应该相应的降低?如果监管部门不承担责任,那似乎在理论上说不通,因为大家可以说它已经参与了监管。如果监管可有可无,发生了问题不用承担责任,那监管又有什么意义呢?但如果真要监管部门承担责任,那似乎又在实践上说不过去。大家知道,交通部的人员非常有限,要面对全国网约车的实时数据进行监控,几乎就是不可能的。如果出了事情就要他们承担相应的责任,那么监管人员要背的“锅”就实在是太重了。

如何进一步推进政企之间的数据共享

在“大数据时代”,将散落在政府与企业手中的数据有效整合起来,积极发掘其价值乃是大势所趋。不过,正如大家所看到的那样,无论是由政府向企业共享数据,还是由企业向政府共享数据,在实践当中都会遭遇很多的困难。因此,为了进一步推进政企之间的数据共享,大家还有相当多的工作要做。具体来说,以下几点是比较值得重视的。

第一,应当推进与数据相关的立法,进一步明确在政府与企业之间,哪些数据可以共享,哪些数据应该共享。所谓没有规矩,不成方圆。正如涂子沛先生的那部《大数据》当中指出的,美国政府对政府数据的开放,是在一系列法律、法规建设的基础上实施的。从根本上讲,我国在政企数据共享中遭遇的很多困难,也是因为相关的法律法规缺失所造成的。如果人们对自己的权利和义务不明确,那就很难开展活动。因此只有从法律的层面上落实数据开放规则,相关人员在进行操作时才可以按图索骥,避免各种可能的障碍。

第二,在进行数据共享时,可以考虑不共享原始数据,只共享数据产品或经过脱敏后的数据。

其实,在很多情况下,大家最需要的并不是数据本身,而是由数据所生成的产品,例如数据运算的结果,或者由数据训练出的算法等。以监管为例,在我个人看来,如果监管者想要了解的只是实时发生的问题(例如网约车的事故、纠纷等)数量,那么他们只需要让相关的企业在自己的平台上先运算出这些统计数据,然后再将这些数据提交给监管平台就行了。从达成监管的目标看,这样做的效果基本是和要求企业提供所有实时数据是等价的——事实上,考虑到运算效率等问题,这样汇报的效果可能还会更好。但与此同时,这样的做法又可以避免前面大家所提过的很多问题。像数据泄露风险、数据价格问题,以及权责关系问题等,在这样的操作下都将迎刃而解。

第三,应当积极采用各种新的技术来破解数据共享过程中采用的问题。

从最根本的角度看,要解决数据相关的大多数问题,最终还要靠技术的发展。我想,在当前的情况下,至少有两样技术是有助于大家解决这个问题的。

第一项技术是联合学习算法。如前所述,大家现在需要大数据的最重要理由是,将更多的数据集合在一起后,就可以从它们身上挖掘出更多的信息。换言之,如果大家不需要将数据集合在一起就可以达到同样目的的话,就不必再采用这种整合数据的思维了。这样的理想可能实现吗?答案或许是肯定的。目前,GOOGLE正在研发一种联合学习技术。和过去的各种机器学习算法需要集中在一起不同,联合学习算法可以利用分散在成百上千万用户手里的设备,协同训练机器学习模型,而且所有的训练数据都保留在原来各自的设备上。如果这种算法被证明为是成功的,那么或许在不远的将来,所有数据所有者就不再需要开放共享自己的数据,但却可以享受到与开放数据相同的好处。

第二项技术是区块链。大家知道,区块链技术有一项重要的特点,就是可追踪。如果将数据采用区块链技术进行加密,在其整个转移的过程中,大家就可以清晰地看到它的去向,知道它到底被谁使用过,又被谁复制过。有了这样的技术条件,数据的提供者就可以对使用者在未经自己允许的情况下泄露数据的情况进行有效追责,对于清晰界定数据的产权也会大有助益。

 

陈永伟新葡京32450观察报专栏作家
《比较》研究部主管
XML 地图 | Sitemap 地图