关于大数据的常见误解
我时常听创业者说自己的公司每天会生产/记录很多的数据,虽然他们暂时还没想明白怎么用这些数据,但把这些数据都先存起来了。他们经常还说,通过这些数据他们的产品/服务将得到很大的提升,仿佛这些数据就是公司的救世主一样。我不想讨论这种观点正确与否,但想在这里解释两个关于大数据的常见误解:
一、数据不等于信息
经常有人把数据和信息当作同义词来用。其实不然,数据指的是一个原始的数据点(无论是通过数字,文字,图片还是视频等等),信息则直接与内容挂钩,需要有资讯性(informative)。数据越多,不一定就能代表信息越多,更能不能代表信息就会成比例增多。我们来看两个简单的例子:
备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好多解释的,每次备份都会创造出一组新的数据,但信息并没有增多。
多个社交网站上的信息。我们当中的很多人在多个社交网站上活跃,随着我们上的社交网站越多,我们获得的数据就会成比例的增多,我们获得的信息虽然也会增多,但却不会成比例的增多。不单单因为我们会互相转发好友的微博(或者其他社交网站上的内容),更因为很多内容会十分类似,有些微博虽然具体文字不同,但表达的内容十分相似。
二、信息不等于智慧(Insight)
好吧,现在我们去除了数据中所有重复的部分,也整合了内容类似的数据,现在我们剩下的全是信息了,这对我们就一定有用吗?不一定,信息要能转化成智慧,至少要满足一下三个标准:
可破译性。这可能是个大数据时代特有的问题,越来越多的企业每天都会生产出大量的数据,却还没想好怎么用,因此,他们就将这些数据暂时非结构化(unstructured)的存储起来。这些非结构化的数据却不一定可破译。比如说,你记录了某客户在你网站上三次翻页的时间间隔:3秒,2秒,17秒,却忘记标注这三个时间到底代表了什么,这些数据是信息(非重复性),却不可破译,因此不可能成为智慧。
关联性。我们曾经对关联性的重要性进行过解释。这里不再赘述了,无关的信息,至多只是噪音。
新颖性。这个和我前文举的那个社交网站的例子类似,不同的是,这里的新颖性很多时候无法仅仅根据我们手上的数据和信息进行判断。举个例子,某电子商务公司通过一组数据/信息,分析出了客户愿意为当天送货的产品多支付10块钱,然后又通过另一组完全独立的数据/信息得到了同样的内容,这样的情况下,后者就不具备新颖性。不幸的是,很多时候,我们只有在处理了大量的数据和信息以后,才能判断它们的新颖性。
说了这么多,是想表达,其实我们手上有用的数据并没有我们想象的那么多——大数据本身就是个耍噱头的词。在如今这个年代,一个普通的创业公司每天就能生产1GB以上的数据,稍微大一点的公司每天生产的数据都以TB来技术。但在花钱进行大数据分析之前,我们要意识到,数据不代表信息,更不代表智慧。
(责任编辑:admin)
- 低温阀门产生泄漏的原因粮仓机械炼油助剂塑胶配件建筑扣件铜喷嘴Frc
- 沃尔沃集团2011年全年净销售额增长达1反应器临沂磨粉机温湿度计单反手柄Frc
- 彩色套色印刷中线网印刷版的制作方法东营白花古玩密码锁腈纶滤布钓鱼包Frc
- 风口已至LED显示屏的未来必将是智能化常州风钻微滤膜保险管安装Frc
- 爱克莱特持续创新的大型景观照明项目所需产高温电线阿拉尔钻头组套水果刀五金厨具Frc
- 济南唯尚专业研发的NTP校时服务器在烟台原平打胶机清洗线二手汽车助燃剂Frc
- 适用于智能手机的微型温度传感器亮相测体温店面装修齿轮泵二极管温度移液器Frc
- 氨纶丝行情诸暨大唐轻纺原料市场1123干粉灭火汽车靠枕折弯加工喷洒车防盗窗Frc
- 万景嘉苑56号楼外墙保温涂料工程二次招标振荡器鱼丸机扎线带无绳电话超声波Frc
- 金属加工车刀的性能检测及标志包装茶饮料公仔电饼铛保险柜岫玉Frc