导航:首页 > 数据处理 > 数据比作什么

数据比作什么

发布时间：2022-03-03 20:54:19

❶ 如何用形象的比喻描述大数据的技术生态

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。
大数据，首先你要能存的下大数据。
传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。
存的下数据之后，你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据，但是这些数据太大了。一台机器读取成T上P的数据（很大的数据哦，比如整个东京热有史以来所有高清电影的大小甚至更大），一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说，单机处理是不可忍受的，比如微博要更新24小时热博，它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理，我就面临了如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapRece / Tez / Spark的功能。MapRece是第一代计算引擎，Tez和Spark是第二代。MapRece的设计，采用了很简化的计算模型，只有Map和Rece两个计算过程（中间用Shuffle串联），用这个模型，已经可以处理大数据领域很大一部分问题了。
那什么是Map什么是Rece看
考虑如果你要统计一个巨大的文本文件存储在类似HDFS上，你想要知道这个文本里各个词的出现频率。你启动了一个MapRece程序。Map阶段，几百台机器同时读取这个文件的各个部分，分别把各自读到的部分分别统计出词频，产生类似
（hello, 12100次），（world，15214次）等等这样的Pair（我这里把Map和Combine放在一起说以便简化）；这几百台机器各自都产生了如上的集合，然后又有几百台机器启动Rece处理。Recer机器A将从Mapper机器收到所有以A开头的统计结果，机器B将收到B开头的词汇统计结果（当然实际上不会真的以字母开头做依据，而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多，而你不希望数据处理各个机器的工作量相差悬殊）。然后这些Recer将再次汇总，（hello，12100）＋（hello，12311）＋（hello，345881）= （hello，370292）。每个Recer都如上处理，你就得到了整个文件的词频结果。
这看似是个很简单的模型，但很多算法都可以用这个模型描述了。
Map＋Rece的简单模型很黄很暴力，虽然好用，但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature，本质上来说，是让Map/Rece模型更通用，让Map和Rece之间的界限更模糊，数据交换更灵活，更少的磁盘读写，以便更方便地描述复杂算法，取得更高的吞吐量。
有了MapRece，Tez和Spark之后，程序员发现，MapRece的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言，虽然你几乎什么都能干了，但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapRece，Hive则用的是SQL。它们把脚本和SQL语言翻译成MapRece程序，丢给计算引擎去计算，而你就从繁琐的MapRece程序中解脱出来，用更简单更直观的语言去写程序了。
有了Hive之后，人们发现SQL对比Java有巨大的优势。一个是它太容易写了。刚才词频的东西，用SQL描述就只有一两行，MapRece写起来大约要几十上百行。而更重要的是，非计算机背景的用户终于感受到了爱：我也会写SQL！于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来，工程师也从写奇怪的一次性的处理程序中解脱出来。大家都开心了。Hive逐渐成长成了大数据仓库的核心组件。甚至很多公司的流水线作业集完全是用SQL描述，因为易写易改，一看就懂，容易维护。
自从数据分析人员开始用Hive分析数据之后，它们发现，Hive在MapRece上跑，真鸡巴慢！流水线作业集也许没啥关系，比如24小时更新的推荐，反正24小时内跑完就算了。但是数据分析，人们总是希望能跑更快一些。比如我希望看过去一个小时内多少人在充气娃娃页面驻足，分别停留了多久，对于一个巨型网站海量数据下，这个处理过程也许要花几十分钟甚至很多小时。而这个分析也许只是你万里长征的第一步，你还要看多少人浏览了跳蛋多少人看了拉赫曼尼诺夫的CD，以便跟老板汇报，我们的用户是猥琐男闷骚女更多还是文艺青年／少女更多。你无法忍受等待的折磨，只能跟帅帅的工程师蝈蝈说，快，快，再快一点！
于是Impala，Presto，Drill诞生了（当然还有无数非着名的交互SQL引擎，就不一一列举了）。三个系统的核心理念是，MapRece引擎太慢，因为它太通用，太强壮，太保守，我们SQL需要更轻量，更激进地获取资源，更专门地对SQL做优化，而且不需要那么多容错性保证（因为系统出错了大不了重新启动任务，如果整个处理时间更短的话，比如几分钟之内）。这些系统让用户更快速地处理SQL任务，牺牲了通用性稳定性等特性。如果说MapRece是大砍刀，砍啥都不怕，那上面三个就是剔骨刀，灵巧锋利，但是不能搞太大太硬的东西。
这些系统，说实话，一直没有达到人们期望的流行度。因为这时候又两个异类被造出来了。他们是Hive on Tez / Spark和SparkSQL。它们的设计理念是，MapRece慢，但是如果我用新一代通用计算引擎Tez或者Spark来跑SQL，那我就能跑的更快。而且用户不需要维护两套系统。这就好比如果你厨房小，人又懒，对吃的精细程度要求有限，那你可以买个电饭煲，能蒸能煲能烧，省了好多厨具。
上面的介绍，基本就是一个数据仓库的构架了。底层HDFS，上面跑MapRece／Tez／Spark，在上面跑Hive，Pig。或者HDFS上直接跑Impala，Drill，Presto。这解决了中低速数据处理的要求。
那如果我要更高速的处理呢看
如果我是一个类似微博的公司，我希望显示不是24小时热博，我想看一个不断变化的热播榜，更新延迟在一分钟之内，上面的手段都将无法胜任。于是又一种计算模型被开发出来，这就是Streaming（流）计算。Storm是最流行的流计算平台。流计算的思路是，如果要达到更实时的更新，我何不在数据流进来的时候就处理了看比如还是词频统计的例子，我的数据流是一个一个的词，我就让他们一边流过我就一边开始统计了。流计算很牛逼，基本无延迟，但是它的短处是，不灵活，你想要统计的东西必须预先知道，毕竟数据流过就没了，你没算的东西就无法补算了。因此它是个很好的东西，但是无法替代上面数据仓库和批处理系统。
还有一个有些独立的模块是KV Store，比如Cassandra，Hbase，MongoDB以及很多很多很多很多其他的（多到无法想象）。所以KV Store就是说，我有一堆键值，我能很快速滴获取与这个Key绑定的数据。比如我用身份证号，能取到你的身份数据。这个动作用MapRece也能完成，但是很可能要扫描整个数据集。而KV Store专用来处理这个操作，所有存和取都专门为此优化了。从几个P的数据中查找一个身份证号，也许只要零点几秒。这让大数据公司的一些专门操作被大大优化了。比如我网页上有个根据订单号查找订单内容的页面，而整个网站的订单数量无法单机数据库存储，我就会考虑用KV Store来存。KV Store的理念是，基本无法处理复杂的计算，大多没法JOIN，也许没法聚合，没有强一致性保证（不同数据分布在不同机器上，你每次读取也许会读到不同的结果，也无法处理类似银行转账那样的强一致性要求的操作）。但是丫就是快。极快。
每个不同的KV Store设计都有不同取舍，有些更快，有些容量更高，有些可以支持更复杂的操作。必有一款适合你。
除此之外，还有一些更特制的系统／组件，比如Mahout是分布式机器学习库，Protobuf是数据交换的编码和库，ZooKeeper是高一致性的分布存取协同系统，等等。
有了这么多乱七八糟的工具，都在同一个集群上运转，大家需要互相尊重有序工作。所以另外一个重要组件是，调度系统。现在最流行的是Yarn。你可以把他看作中央管理，好比你妈在厨房监工，哎，你妹妹切菜切完了，你可以把刀拿去杀鸡了。只要大家都服从你妈分配，那大家都能愉快滴烧菜。
你可以认为，大数据生态圈就是一个厨房工具生态圈。为了做不同的菜，中国菜，日本菜，法国菜，你需要各种不同的工具。而且客人的需求正在复杂化，你的厨具不断被发明，也没有一个万用的厨具可以处理所有情况，因此它会变的越来越复杂。

❷ 重要数据是什么

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

❸ 什么叫数据类型

就是对数据的个种形态的描述,如"实型""整型"等,他们的写法是不同的,实型数有精度,就是后面带小数,而整型是不带小数的,

❹ 初期数据是什么意思呢简单解释加比喻谢谢！

原始数据
第一次采集的数据
或第一阶段收集整理的数据

❺ 大数据包括什么

大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

(5)数据比作什么扩展阅读：

大数据的应用

1、洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

2、google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

3、统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

4、麻省理工学院利用手机定位数据和交通数据建立城市规划。

5、梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

6、医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。

❻ 大数据是什么意思

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。

大数据的结构：

大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示：企业中80%的数据都是非结构化数据，这些数据每年都按指数增长60%。

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

以上内容参考：

网络-大数据

❼ 数据的定义是什么

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，如购物网站的消费记录，这些数据只有进行处理整合才有意义。
大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。
大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

❽ 什么是大数据,通俗的讲

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，简单来说大数据就是海量的数据，就是数据量大、来源广、种类繁多(日志、视频、音频)，大到PB级别，现阶段的框架就是为了解决PB级别的数据。

大数据的7大特征：海量性，多样性，高速性，可变性，真实性，复杂性，价值性

随着大数据产业的发展，它逐渐从一个高端的、理论性的概念演变为具体的、实用的理念。

很多情况下大数据来源于生活。
比如你点外卖，准备什么时候买，你的位置在哪，商家位置在哪，想吃什么……这都是数据，人一多各种各样的信息就越多，还不断增长，把这些信息集中，就是大数据。

大数据的价值并不是在这些数据上，而是在于隐藏在数据背后的——用户的喜好、习惯还有信息。

❾ 数据库是什么能打比喻吗

数据库就好象一个电话号码簿,里面存着大量美女信息,当你想和那位美女约会了你就可以掉出相应电话号码和她联系,当她换号码了,你可以对其作出相应修改,以保持及时联系上该美女,当你和他发生误会不想交往了,你可以直接把她号码删除,当你新交了一个美女,可以加上他的号码,还有你可以设计用户,对号码进行分类管理等等,啊都累了.......明白?

❿ （数据表）这三个字是指什么意思最好是能够简单解释和加比喻谢谢！

先要弄清楚什么是“数据”。数据是进行各种统计、计算、科学研究或技术设计所依据的数值。如：期中考试，我们班数学最高分98分，最低分67分，平均80.5分。“最高分98分，最低分67分，平均80.5分”，就是与这次我们班数学考试的相关数据。又如：我校高三（1）班60人，（2）班57人，（3）班59人，（4）班55人，共计231人。这就是有关我校高三年级人数的数据。

有了数据，要对数据进行处理。数据处理，指对于科学研究、生产实践、经济活动等领域中所获得的大量有关数据（可以是数字、图表、符号、文字和曲线等形式），如实验数据、观测数据、统计数据、原始数据等，按不同使用要求进行归纳、整理、组织、分类、统计以及绘制图表等的工作。数据表就是处理数据的一种形式，它是依据相关数据和要求绘制的图表。例如下面的图表就是一幅简单的数据表（反映的是1012年伦敦奥运会前8名国家的获奖情况）：

阅读全文

与数据比作什么相关的资料

热点内容

我为什么选择程序猿发布：2024-11-28 05:31:49 浏览：755

安怡为什么恢复不了原始程序发布：2024-11-28 05:30:21 浏览：225

信息流过载是什么发布：2024-11-28 05:30:20 浏览：222

环境实验室信息管理系统有哪些发布：2024-11-28 05:19:14 浏览：264

新车怎么没有产品发布：2024-11-28 05:12:20 浏览：391

永恒纪元交易密码错误限制多久发布：2024-11-28 05:09:25 浏览：942

先练什么技术最好发布：2024-11-28 05:01:13 浏览：730

大盘都有什么数据发布：2024-11-28 04:54:42 浏览：477

东吴证券交易密码如何设置发布：2024-11-28 04:54:38 浏览：757

怎么查到公司的大数据发布：2024-11-28 04:52:26 浏览：709

短线有哪些交易模式发布：2024-11-28 04:50:44 浏览：503

顾客反复买产品返费是什么原因发布：2024-11-28 04:44:52 浏览：548

家庭实用新产品有哪些发布：2024-11-28 04:31:57 浏览：251

如何做外汇交易误区发布：2024-11-28 04:19:16 浏览：752

如何锻炼王者的技术发布：2024-11-28 04:11:34 浏览：115

哪里能卖交易冷却的饰品发布：2024-11-28 04:11:34 浏览：666

宝鸡第二商贸学校里边有什么技术发布：2024-11-28 03:39:39 浏览：549

湖北怎么查打疫苗信息发布：2024-11-28 03:38:55 浏览：62

怎么跟客户说明产品变更了什么发布：2024-11-28 03:32:28 浏览：173

保税区会计业务代理需要哪些条件发布：2024-11-28 03:28:43 浏览：991