Date Tags Misc / Tech

(无伴奏人声版Lollipop,轻快的节奏感非常能带动人的情绪,取自于电影:完美音调2)

如果你在看天气预报、使用GPS定位功能、研究上市公司财报......那么,你就是在使用开放数据。不同于专业机构才能获取、分析、利用的“大数据”,开放数据是免费、定期发布、完全公开透明的,任何人都可以重复使用。

这本书是美国人写的,时间不久,从书中看出,奥巴马政府对开放数据的支持度非常高,已经涉及到要修改1966年通过的联邦信息自由法案。当然你会问为毛要更改法案,因为现在美国政府的数据开放度还有所欠缺,或者有些第三方数据需要政府配合来进行数据公开,在民众、一些第三方机构的要求或者监督下,对美国社会上存在的数据公开的要求的开放度会越来越高。

先来过一过这本书:

政府数据公开。http://Data.gov 美国政府开放数据项目的官方网站。一个实例:The Climate公司,为美国农民提供服务的公司,现以被孟山都收购。开始是从全美200个气象站收集数据,但是200个覆盖全美的精度和看天气预报有什么差别呢?慢慢扩展到了2000个,但是有地形复杂的地方精度仍不够,不能提供很精确的降水量或者温度。最后他们使用了“公用土地单元”的数据来显示全美所有农业用地的位置、形状和大小。这些数据也是该公司多次向信息自由法案提交申请后与相关大学合作,美国农业部才发布这些数据。现在他们能准确预测出某农场一天的降水量,并精确到0.01英寸。并且现在可以通过农民土地的卫星红外图像精确估计出他们所要种植作物的播种期和生长期,这些卫星图像也是可以免费获取的。

做得多么科学和精致,虽然对孟山都“侵略”中国的印象不太好,不过他们做事情确实做得比较好,有些东西还是得学习的。

消费数据公开。中间看到一个实例个人觉得非常好,美国有一个网站做医院之间的比较,就是通过病人的一些消费数据进行的“大数据”分析决策来对医院各方面进行评测。医疗数据现在在美国利用得非常火爆,在国内最近也炒得比较火,BAT各自都在医疗领域有了自己的一席之地,医疗数据这一Part应该要放在政府数据里面,因为在美国是由美国卫生和公共服务部进行管理的。

大众点评我现在只要一出去吃饭基本都会用得到,这也是一种消费数据公开的方式,美国的Yelp和大众点评有些不一样的地方,不过在消费数据公开方面是一样的。

消费数据其实覆盖的面很广,个人金融、房地产、教育等等,不一一举例。国内其实也会用到,但是仅限于自己的公司内,比如京东、一号店等等会分析历史的消费数据,经常给我们推荐我们可能喜欢的产品。国内有一个消费数据决策的应用我非常喜欢,就是微博会推荐我我可能感兴趣的人,非常有用,就是不知道获取微博用户的粉丝和关注的人算不算开放数据,这个还没研究过。

说到微博,国外有两个商业化的聚合数据公司专门分析twitter的数据来分析一些分析,地域,消费力,消费面等等的分析,当然国外做这个更好,因为国内微博是以大V产生内容为主,而twitter是以鼓励用户原创内容为主,更具有可分析性。

利用群体智慧进行快速创新。不解释,实例:2011年,华盛顿大学的调查者们尝试了解一个类似于艾滋病病毒的猴子病毒的构造。他们从X光研究中收集了很多有价值的数据,但是他们不能解释这些数据。所以他们尝试在Foldit网站上把他们的数据公开。不到3周的时间,一队玩家就找到了困扰科学家们10多年的蛋白质结构。

另外一个方面和众包的概念类似,辛普森指出,维基百科上显示,大约100万个小时的工作时间--每年美国的成年人花在看电视上1/20的时间。通过改变我们的闲暇时间来实现我们能够接受的“认识盈余”可以完成很多任务。这可能也是众包形成的基础。众包就是把一块事情分成N多小块,给广大群众去解决,这样并行解决效率会非常高,并给予解决者们相应的报酬(爱推动人们烘焙一个蛋糕,而钱可以推动人们编一本百科全书)。但是众包也有局限性,就是任务的可分解性,完成人员的专业性和质量控制。不过众包这个方向我一直很看好,市场不容小视。

个人数据库。手机数据的云同步可以很好的解释这个概念,本书中提出来的数据采集面更广,而且已经有成形个人数据服务公司。不知道美国人民对把个人相关数据放在别人的服务器上是啥感觉,我是不敢的,虽然手机联系人已经被N家厂商获取了......

当然本书提出来的概念是合理的对这些个人数据进行利用,而非贩卖个人数据。比如:会自动填写相关表单信息,可以使部分数据对部分公司可见,这样比较领相关津贴时不至于找不到你等等。这个模式还非常的新颖,在中国这种人与人之间的信任都缺失的年代不知道能不能运作。

其实说到个人数据,有很大一块是存放在政府数据库,比如说:个人档案,学历,社保,住房供积金,购车情况,行车违规记录,银行还贷情况,税务部门的记录等等。这类数据应该是可以归到个人数据库的,只是现在管理可能比较零散,而且对个人的开放度也非常有限,大部分信息只限于政府内部浏览。这部分数据我个人建议以后可以统一进行管理,对个人来讲全部开放,个人选择性对某些相关机构开放,决定权应在个人手中。

监管和公共安全。要真是政府一些关键数据能公开,腐败这东西就是比较难以形成的事情了,里面讲到实例有利用公开数据进行反洗钱的,这方面不宜多说。

公共安全,食品安全值得重视吧,我们每天吃地沟油,等等特色食品。美国有一个监控食品安全的网站,里面有详细的一些数据都是免费开放的,当然数据是一方面,得有强硬的政策支撑。

至于我国的数据开放情况,我也没有仔细了解过,有几张图可以看一下。按我现有的理解,应该还处在初级阶段,而且数据可信度无法保证,暂不作太多评论。国内已经有些数据已经公开了:比如坐飞机旅客的一些订单记录(春秋没有加入,而且非公开),航班信息,火车时刻表,公交车的实时信息(非公开)等等,这些只是便民的一些信息。貌似之前有个中国鬼城的图是根据2010年中国政府公开的官方数据绘制而成的。

开放数据政府官方网站

图:开放数据政府官方网站

第三方开放数据网站

图:第三方开放数据网站

第三方开放数据网站

图:第三方开放数据网站

中国鬼城图

图:中国鬼城图

总体来讲,这本书的干货很多,是本硬书,最后附上我从书中收集的一些网址截图。数据开放度一步步增大肯定是以后的趋势,我们要做的就是去推动开放进程,去更有效的利用这些数据,同时也希望国内也会有相关的法案支持数据的公开。

一些关于开放数据的书签

图:一些关于开放数据的书签


Comments

comments powered by Disqus