数据资源这座“宝矿”,我们应该怎样挖掘?

2020-09-07 10:43
作者:
来源:

编者荐语:

除了我们熟悉的互联网营销和风控,数据开放还能在哪些领域释放价值?在美国,大量的公共数据以最易于获取的形式开放给公众使用,随后被应用于有利于公共利益的社会和商业服务。中国数据市场体量庞大,如能做到及时开放和共享,必将发挥巨大的战略价值。

以下文章来源于数据猿 ,作者郭敏

1

国家的政策顶层设计和方针已经明确,但仅有制度还远远不够,能不能执行好才是关键。数据也是智慧社会的支撑,及时开放、共享数据,才能挖掘数据资源“宝矿”。



时至今日,大数据作为一种新的资源,正在对我们的生活产生极大影响。

在郊外的某家医院,一名刚出生的婴儿被不法分子偷走。事发后,警察多方调查,对相关人员进行详细询问,却也只获得了歹徒所乘车的颜色、品牌和部分车牌号信息。

还有一些医院,医生经常会给“瘾君子”提供违禁药物,通过“假”病人就诊的方式开处方药,然后让这些人去药房拿药交给瘾君子或者中间人,医生从中赚取高额利润。久而久之,一条条灰色产业链渐渐成形。

上述两个事件均发生在国外。在大数据的支持下,在第一个案例中,警察通过已获得的有限信息,迅速筛查出了五辆符合条件的车辆,其中一辆当地车被锁定为高度怀疑对象,果然第二天就在隔壁镇上找到了车和失踪婴儿;在第二个案例中,相关部门通过大数据分析发现了医生、患者、瘾君子、药店之间异常的关系网络,打击了不少类似的灰色产业链。

2

随着数字经济时代的到来,除基础信息之外,单个个人或者团体的“一举一动“都会形成数据被有关部门“记录在案”,必要时对这些数据进行加工、分析就会产生巨大的价值,但前提是政府是否愿意开放这些数据。如果开放,开放的程度又有多大?



“数据开放”在美国


“数据开放共享”是老生常谈的话题。放眼全球,美国走的比较早也比较超前。

2009年1月,美国总统奥巴马发布《透明和开放政府备忘录》,呼吁建设一个更加透明、易于参与的协作型政府,要求“政府机构和行政管理部门充分运用新技术在网上公开其决策和运行情况,以供公众随时获取。”

不久后,美国政府发布《开放政府令》,并制定“开放政府计划”,建立政府数据开放平台Data.gov。据统计,Data.gov开放了近40万项原始数据和地理数据,涵盖农业、金融、气象、就业、教育、人口统计、医疗、交通、能源等多个门类。

3

2012年5月,美国联邦政府发布《数字化政府政策》,要求政府各机构将所持有的数据从原来的以文件为单位转换成易开放的数据形态,通过网页和应用程序接口的方式开放给政府、公众、非赢利单位和企业使用。

2014年5月9日,美国发布《美国数据开放行动计划》,该计划对数据开放工作进行了全面总结,并提出了四项举措来保障政府数据开放的顺利进行。

事实上,美国政府在进行数据开放的同时,信息安全也没有被忽视。

为了保护信息安全,美国曾推出《隐私保护指令》等一系列政策。2019年,美国政府通过最新开放政府数据法案,要求联邦机构必须以“机器可读”格式,发布任何不涉及公众隐私或国家安全的“非敏感”信息,可以说该法案贯彻落实了数据隐私保护。

中国信息通信研究院政策与经济研究所工程师沈达表示:“(美国)最新法案体现了其结合数字经济的发展特点,把推进政府数据开放作为增强国家竞争力、赢取全球资源配置优势的重要战略举措,为人工智能等技术产业发展与创新提供了数据资源保障。”

此外,自美国政府在2009年发布Data.gov站点以来,越来越多的数据被搬至线上并开放给第三方使用。

4

“在数据开放方面,美国政府能开放的全都会开放,有一些非常好的商业机构会给政府提供一些数据方面的服务,也有一些民间组织会收集和使用政府公开数据,目前已经形成了一个较为全面的生态链。”曾任职于微软、eBay,现任Kyligence联合创始人兼CEO的韩卿对此颇有感触。

根据今年4月万维网基金会发布的第三份“开放数据晴雨表”(Open Data Barometer)全球报告显示,在纳入评价的92个国家和地区中,英国在“开放数据”上得分居首,美国、法国、加拿大、丹麦紧随其后。


数据量越大、越丰富,价值越容易释放


在数据成为“新型能源”的今天,美国无疑给大数据企业成长提供了肥沃而健康的土壤。对于这一点,励讯集团旗下的律商风险中国区董事总经理吕晓辉深有体会。

律商风险深耕美国数据市场数十年,自2012年开始在国内探索,主要通过数据采集、处理和分析能力,为政府、银行、保险、医疗等行业提供信息服务。除了相关技术之外,律商风险还得拥有丰富的数据源。

据吕晓辉介绍,在美国市场,律商风险的数据主要来自联合行业主体搭建的数据共享平台、大型数据集成商、各级政府机构、互联网和实时查询轨迹,共计20,000多个数据源,4个PB(Petabytes)非机器生成的数据源,这些数据往往是价值含量非常高的“干货”。

类似的开放数据能用于哪些领域?对此,GrowingIO 创始人兼CEO张溪梦表示,“目前大数据整体应用越发蓬勃,现在行业已经非常成熟,早已不止停留在学术层面,各个领域已经开始大面积商用,尤其是在金融、零售、互联网、广告、安防等领域,表现特别明显。”

5

那么,在获得这些数据之后,如何把它们应用于具体的业务场景中?吕晓辉列举了身份反欺诈和保险理赔两个实际的应用场景。

其一,在线上经济快速发展的今天,很多人会进行网上交易。网上交易的最大难点是对消费者真实身份的确认。一些不法分子会在某个时刻针对目标欺诈对象伪造一个身份,从而盗取真实存在人的身份,这种情况屡见不鲜。“律商风险的数据体系能够描绘出每个人相对完整的数据轨迹,以此为据来识别身份欺诈犯,就算是最老道的欺诈分子也会在短时间内暴露。”吕晓辉解释道。

其二,在给保险公司提供数据服务时,律商风险通过海量的公共数据能准确地解析出消费者的轨迹,比如消费者在一段时间内的搬家次数,租房还是买房……这些看似不相关的信息会给消费者的车险赔付带来直接影响。“因为频繁搬家,消费者会对周边的路况不熟悉,开车上路容易出现事故”。

由此可见,政府数据开放程度越大,组织、企业、社会团体可用的数据就越丰富。

“数据是与自然资源一样重要的战略资源,经济价值巨大,数据的研究和利用一直伴随并推动着社会经济的发展,并且数据量越大,数据类型越丰富,所能提取的价值也就越大。”业内人士表示。

这样放之四海皆准的法则,在任何国家都是如此。

比如,在公共交通安全领域,北京市交管局一直以事故数量、具体类型为大数据平台的一部分,去研判各类事故的发生,包括高发频发事故等,对碰撞位置高度重复的事故会进行预警,并在一定时间内进行研判和排查。

6

据统计,自2020年以来,在当地刑侦队、公交队、市交管局和各分局的相互配合下,共抓获犯罪嫌疑人42人,其中个人作案20人,打掉团伙6个共计22人,数据在警察破获“碰瓷”的案件起到了关键作用。

“如今,我国大数据应用蓬勃发展,在互联网用户营销和运营、风险控制等领域相对成熟,结合人工智能技术的除了安防之外,尚无很成熟的领域。”易观CTO郭炜表示。想必这跟我国政府数据开放机制不健全、程度不够高有直接联系。


路漫漫其修远兮 吾将上下而求索


大数据发展日新月异,对经济发展、社会治理、国家管理、人民生活产生的影响越来越大。

“我们对中国市场非常看好,这里不但有庞大的数据体量,而且有非常好的支持大数据产业发展的技术和文化基础。”吕晓辉表示。

不过,虽然事实如此,但我国的数据开放程度远不如欧美。

“对比欧美来说,我国政府在数据开放方面的深度和广度还是比较欠缺的。例如在数据索引、API接口等方面做的都不够完善。这些年,贵阳做的有板有眼,主要也是因为他们很早就提出了要做大数据产业这件事。”新奥集团首席数据产品官兼能源贸易集团首席信息官蔡栋表示,“在大数据交易中心这件事上,我觉得有些地方政府做的还是有些问题的,尤其在数据交换过程中,虽然隐私信息保护方面做得不错,但却付出了相当高的代价。”

根据最新的“开放数据晴雨表”全球报告显示,中国在人口数据开放方面做得相对较好(80%)、其次是犯罪统计数据公开(60%)。其他方面则乏善可陈,数据公开表现比较不好的是政府开支数据(5%)和地图数据(5%)。总体来说,中国的数据开放可持续性得分相对较低,可以免费获得的数据种类也不多。

7

李克强总理曾表示:“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费。”可见政府数据开放和利用,是释放数据能量的关键一步。

2015年,国务院印发《促进大数据发展行动纲要》指出,要大力推动政府部门数据共享,稳步推动公共数据资源开放,但整体效果不如预期。

对于原因,笔者在之前撰文中曾写道过:一方面是政府机构担心敏感数据泄漏,另一方面是政府本质上不愿公开数据、也不会公开数据。不愿开放数据是认为数据可以带来这么大的利益,为什么要分享给别人;不会开放数据是因为过去没有建立起数据分享这种专业技能。

“数据是中国的优势,但是目前的数据被分割了。数据必须足够才能有用。大数据是公共品,必须向公众开放。”中国社会科学院国家金融与发展实验室理事长李扬表示。

今年中央和地方层面均在数据开放应用上做出了诸多制度上的努力:

3月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,强调要加快培育数据要素市场,推进政府数据开放共享。随后,各地开始加大力度推进政府数据开放。

4月22日,安徽省政府办公厅印发了《关于打造“皖事通办”平台加快政务数据归集共享的意见》,明确安徽将探索线上“政务数据大厅”管理新模式,2020年底前实现100%的政务数据汇聚到江淮大数据中心;

6月4日,浙江省公开发布了《浙江省公共数据开放与安全管理暂行办法》,以政府规章的形式明确公共数据应开放尽开放的原则,提出了数据分类分级开放的要求,形成了数据授权开放、脱敏处理的机制。截至目前,浙江省已开放8677个数据集、15.2亿条数据;

7月1日,《山西省大数据发展应用促进条例》正式施行,《条例》明确提出政务服务实施机构应当通过统一开放平台主动向社会开放经过脱敏和标准化处理、可机器读取的数据,法律、法规另有规定的除外;

7月24日,无锡市上线了公共数据开放平台,该平台共有22类领域主题、9大应用场景、1500多个开放数据集及1299个数据服务接口,包含约2324万条结构化数据,涉及55个市级部门和8个地区板块。平台具有依据规范、领域齐全、功能便捷、查询智能、授权安全等特点,向社会公众免费开放。

此外,广东深圳市司法局发布了《深圳经济特区数据条例(征求意见稿)》,指出要运用特区立法权率先开展地方数据立法,促进个人隐私保护,促进公共数据开发利用;天津市互联网信息办公室出台了《天津市公共数据资源开放管理暂行办法》,对公民、法人和其他组织获取公共数据资源做出了明确规定。同时,天津还开启了公共数据资源需求征集活动。

8


国家的政策顶层设计和方针已经明确,但仅有制度还远远不够,能不能执行好才是关键。数据所有者需破除障碍,提升数据开放的主动性和积极性,让更多高质量的数据开放应用起来,真正有大数据技术实力的企业才有用武之地,摆脱“巧妇难为无米之炊”的尴尬处境,真正实现数据要素对创新的驱动和数据价值的释放。

数据是智慧社会的支撑,及时开放、共享数据,才能挖掘数据资源“宝矿”。如今,各地都加大了政府信息公开力度,实现较大程度的数据开放共享指日可待。

“在中国市场上,专门提供风控产品并且比较成熟的大数据企业不在少数。未来,随着数据开放程度的加大,这类型和其他类型的企业还会更多。”大数据行业专家刘洋表示。(郭敏 / 数据猿)