A. 大数据是什么
大数据是什么意思呢?
如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB级别。
最早提出“大数据”这一概念的 是全球知名咨询公司麦肯锡,它是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低四大特征。
研究机构Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。若从技术角度来看,大数据的战略意义不在于掌握庞大的数据,而在于对这些含有意义的数据进行专业化处理,换言之,如果把大数据比作一种产业,那么这种产业盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
B. 大数据起源,给你解析到底什么是大数据
大数据,英文名big data。因为传播已经成为习惯,我们并没有过多的去思考为什么用big data去描述,但是现在我们仔细回味一下,会发现大数据这个大为什么不用large为什么不用海量vast呢?归根结底我们可能就需要从语法上,来分析一下,它们三个之间的区别。big形容大小。更多的时候,是一种比较行为上的大,是种相对来说的感觉,而large和vast更多的时候形容的是的是一种形体上的巨大。
那么现在来推敲一下big data这个词,大数据这个大其实是一种相对的说法是相对于传统的数据体量来说的,过去任何时候的数据相对于现在来说都显得太过于渺小,而现在我们所说的大数据是一种量变最后达到了质变的概念。
数据这个词最早在媒体上风靡应该是2007年左右。往上追溯应该就是05年谷歌参加有美国官方举办的一个机器翻译大赛,最终由于使用了海量的相关数据而夺得第一,在那之后大数据这个概念渐渐的被业内人士所传播。那么到底什么是大数据呢?
大数据顾名思义,最表象的特征就是数据量够大。但是仅仅数据量够大,并不能构成大数据整体的含义。如果是海量杂乱无章,互之间没有关联的数据,即便再怎么定义,它也算不上是大数据。就譬如一个人体内的基因图谱,详细的基因图谱数据如果记录出来是一个很大体量的,但是没有意义。
大数据而且还有个概念,那就是多维度。在十年前,如果说国内哪一家公司最有资格说大数据的,那无疑是网络了。作为一个独占13亿用户专属的搜索公司来说,网络对于用户画像的记录,无疑是多维的。网络搜索,至今记录了无数用户每天在互联网上搜索的问题,或者说知识。在时间维度上用户对某些词汇搜索的频次高低这些都是数据。它可以通过对注册用户的甄别就可以知道搜索这个词汇或者是这个问题的用户是男生还是女生?年龄分布是是小孩、青年抑或是一个中年大叔?再到后来个人电脑开始普及,通过记录ip等信息,根据ip搜索的网络的问题的分类,可以判断中国各个区域,是南方富裕一点,还是北方富裕点?是江苏人更爱吃,还是闽南人更喜欢谈论吃?网络完全可以根据自己的数据生成得到国内各种关于此类的数据,普查之后所能得到的答案这就是因为网络所具有的数据是一个多维度的数据。他的数据收集过程,是一个长期的持续性的工作。
除了网络之外,腾讯的qq确实每年都会有一个关于qq的城市报告。它会根据qq的用户数据,甚至于至于活跃地点。在一个大的范围内青年QQ用户的占比,最终可以得到中国城市年轻度排行榜。可以根据这些数据判断,哪一个城市是,年轻人毕业之后最愿意去的。可以判断哪一个城市的,年轻人毕业之后,是回归率最高的。也可以判断哪一个城市的人才流失率更低,更容易留住外来人才。这些都是大数据多维度的应用。
大数据还有一个非常重要的特点,那就是全面性。经常在某些大型活动之前我们都会遇到。某些公司对于这件事情,会做出预测。然后最终的结果让我们大失所望。预测无疑是需要基于数据基础的预测,如果这个数据不够全面的话,最终的预测结果肯定相差甚大。
关于数据全面性有一个最经典的案例这是12年美国大选大选事件。一个名叫斯威尔的年轻人,利用大数据预测。成功预测出了51个州的选举果,要知道这在之前是从来没有发生过的事情。美国大选在之前就一直有专业的预测机构做预测,但是就连这种长期做数据,分析的公司都从来没有如此成功的预测过。那是因为斯威尔将网上所有关于选举的数据,包括新闻稿,以及facebook和推特上面人们关于选举的言论,所有的数据都做了甄选处理。这份数据反映的是网民全面几乎没有遗漏的想法,最终得到了某种程度上来说,比较具有完备性的数据,所以能够如此成功的预测13年美国大选的结果。