您当前的位置:首页 > 应用示范 > 专家视点

用好大数据须强调统计思维

时间:2014-11-05  来源:  作者:
  大数据从2011年起变成了炙手可热的话题。大数据一词虽然内涵重心是数据,但其中更为重要的统计思维却往往被忽视。而缺乏统计思维的“大数据”则有可能带来“大偏差”。

   大数据从2011年起变成了炙手可热的话题。大数据一词虽然内涵重心是数据,但其中更为重要的统计思维却往往被忽视。而缺乏统计思维的“大数据”则有可能带来“大偏差”。
  
  谷歌流行病趋势模型,曾经被当做推销大数据概念的金牌案例。其作用是预测流感和登革热的流行病趋势,但实践表明,这一模型并没有经得住时间的考验。从2011年8月21日到2013年9月1日期间,谷歌流行病模型在108个星期里有100个星期高估了流行病数据。2013年1月,谷歌流行病趋势模型的估计值是实际数据的2倍。如此大的误差显然是无法接受的。
  
  大数据作为二手数据,缺乏行政监督,很多时候也没有办法控制大数据的样本,大数据的样本往往是有噪音的和冗余的,这些问题给大数据分析带来了一定的障碍。谷歌流行病预测模型的目的是预测全美流感发病率,用的数据是搜索引擎用户的搜索记录。但是,全美国民和搜索引擎用户并不是同一个概念。有流感症状的人并不都会使用搜索引擎查询,而使用搜索引擎查流感症状的人也不见得都得了流感。谷歌流行病模型的基础是流行病发病和各种关键词搜索之间的相关关系,但是这种相关关系不是一成不变的,当媒体大量报道和普及流行病常识时,公众在一定程度上产生恐慌,会带来搜索量的突增,这种突增并不意味着流行病的爆发。这也是谷歌流行病预测模型失败的主要原因之一。
  
  在统计学视角里,样本并不是越大越有价值,统计学强调的是样本的代表性,这一代表性一般是通过抽样调查来满足的。如国家统计局为了更好进行抽样调查,建立了基本单位名录库,名录库就是统计调查中的抽样框,抽样样本均来自于抽样框。抽样框既是选择样本单位的依据,也是推断总体的依据。在分析问题时,弄清楚自己的研究总体是非常重要的,如果大数据样本不是研究总体,也不是研究总体的抽样样本,这个时候用大数据做结论就需要非常小心,不然很容易由“大数据”带来“大偏差”。
  
  统计与信息技术联姻,是大数据发展的必由之路。直视当下大数据分析中存在的问题,在利用机器学习算法的同时结合统计学的思维,才能更好地利用大数据这个工具,让大数据时代变得更美。

  

信息来源:中国金卡网  

投稿信箱:1079038114@qq.com  

  友情贴士:中国金卡网所刊登文章仅供政策宣传、学术交流、传播信息、促进信息化建设之用,部分文章来源于网络,并不代表本站观点,转载请注明出处。如无意中侵犯了您的权益,还望见谅,请联系我们尽快处理。

QQ书签 雅虎收藏夹 百度收藏 Google书签 新浪ViVi diglog 和讯网摘 POCO网摘 Del.icio.us

告诉QQ/MSN好友】【回到顶部】 【收藏此页】【打印】【关闭


上一篇:微软、小米、百度,为什么大家都在卖智能手环?
下一篇:车联网建设需要开放的态度

推荐资讯
关于申报“国家金卡工程(廿五年)信息化开拓奖”的通知
关于申报“国家金卡
“国家金卡工程2018年度金蚂蚁奖”评选通知及实施细则
“国家金卡工程2018
创新、开放、共享 中国物联网在线展“智能大世界”欢迎您
创新、开放、共享 中
《物联网在中国》系列丛书 第二届编委会第一次工作会会议纪要
《物联网在中国》系
热门信息
最新信息

主办单位:国家金卡工程协调领导小组办公室

地址:北京市海淀区万寿路27号工业和信息化部万寿路机关3号楼220室 电话:010-68208235

京ICP备11034060号 技术支持:中关村在线