Ⅰ 如何实现企业数据 大数据平台 分布式存放
Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。
1. 大数据分析大分类
Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。
按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
按照大数据的数据量,分为内存级别、BI级别、海量级别三种。
这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。图1是一种实际可行的MongoDB分析架构。
图1 用于实时分析的MongoDB架构
MongoDB大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步失效,但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。
此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到内存分析的性能。随着SSD的发展,内存数据分析必然能得到更加广泛的应用。
BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多,就不具体列举了。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapRece进行分析。本文稍后将主要介绍Hadoop上基于MapRece的一个多维数据分析平台。
数据分析的算法复杂度
根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的分析性能。
还有很多易并行问题(Embarrassingly Parallel),计算可以分解成完全独立的部分,或者很简单地就能改造出分布式算法,比如大规模脸部识别、图形渲染等,这样的问题自然是使用并行处理集群比较适合。
而大多数统计分析,机器学习问题可以用MapRece算法改写。MapRece目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。
2. 面对大数据OLAP大一些问题
OLAP分析需要进行大量的数据分组和表间关联,而这些显然不是NoSQL和传统数据库的强项,往往必须使用特定的针对BI优化的数据库。比如绝大多数针对BI优化的数据库采用了列存储或混合存储、压缩、延迟加载、对存储数据块的预统计、分片索引等技术。
Hadoop平台上的OLAP分析,同样存在这个问题,Facebook针对Hive开发的RCFile数据格式,就是采用了上述的一些优化技术,从而达到了较好的数据分析性能。如图2所示。
然而,对于Hadoop平台来说,单单通过使用Hive模仿出SQL,对于数据分析来说远远不够,首先Hive虽然将HiveQL翻译MapRece的时候进行了优化,但依然效率低下。多维分析时依然要做事实表和维度表的关联,维度一多性能必然大幅下降。其次,RCFile的行列混合存储模式,事实上限制死了数据格式,也就是说数据格式是针对特定分析预先设计好的,一旦分析的业务模型有所改动,海量数据转换格式的代价是极其巨大的。最后,HiveQL对OLAP业务分析人员依然是非常不友善的,维度和度量才是直接针对业务人员的分析语言。
而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
使用Hadoop进行多维分析,首先能解决上述维度难以改变的问题,利用Hadoop中数据非结构化的特征,采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中,这样可以在冗余维度下灵活地改变问题分析的角度。其次利用Hadoop MapRece强大的并行化处理能力,无论OLAP分析中的维度增加多少,开销并不显着增长。换言之,Hadoop可以支持一个巨大无比的Cube,包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显着影响分析的性能。
而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
3. 一种Hadoop多维分析平台的架构
整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分 析模块。
数据采集模块采用了Cloudera的Flume,将海量的小日志文件进行高速传输和合并,并能够确保数据的传输安全性。单个collector宕机之后,数据也不会丢失,并能将agent数据自动转移到其他的colllecter处理,不会影响整个采集系统的运行。如图5所示。
数据冗余模块不是必须的,但如果日志数据中没有足够的维度信息,或者需要比较频繁地增加维度,则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源(数据库、文件、内存等),并指定扩展方式,将信息写入数据日志中。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,建议使用一些比较快的内存NoSQL来冗余原始数据,并采用尽可能多的节点进行并行冗余;或者也完全可以在Hadoop中执行批量Map,进行数据格式的转化。
维度定义模块是面向业务用户的前端模块,用户通过可视化的定义器从数据日志中定义维度和度量,并能自动生成一种多维分析语言,同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。
并行分析模块接受用户提交的多维分析命令,并将通过核心模块将该命令解析为Map-Rece,提交给Hadoop集群之后,生成报表供报表中心展示。
核心模块是将多维分析语言转化为MapRece的解析器,读取用户定义的维度和度量,将用户的多维分析命令翻译成MapRece程序。核心模块的具体逻辑如图6所示。
图6中根据JobConf参数进行Map和Rece类的拼装并不复杂,难点是很多实际问题很难通过一个MapRece Job解决,必须通过多个MapRece Job组成工作流(WorkFlow),这里是最需要根据业务进行定制的部分。图7是一个简单的MapRece工作流的例子。
MapRece的输出一般是统计分析的结果,数据量相较于输入的海量数据会小很多,这样就可以导入传统的数据报表产品中进行展现。
Ⅱ 全球排名前十商业版数据库有哪些
IBM
老牌大数据企业,从微软时代过来的核心,是全球最大的信息技术和业务解决方案公司。
2. 惠普
会最为知名的是它的Vertical分析平台,而且在2012年的营收中排名第二,当之无愧的老牌商业数据库品牌。
3. Teradata
凭借自身硬件和数据库而声名远播。
4. 甲骨文
在数据库领域,甲骨文一直都是鼎鼎大名的存在,而且它也是大数据领域最大的几个玩家之一。
5. SPA
在商业数据中,SPA推出了最为知名的HANA内存内数据库
6. EMC
EMC 的主要业务时帮助客户保存并分析大数据,另外也充当着大数据分析智囊营销科学实验室的所在地,它们专门分析营销类数据。
7. Amazon
时至今日,Amazon 已经成为了全球大数据领域当之无愧的王者,这一切源于它的CEO贝索斯的远见与无与伦比的魄力
8. 微软
微软在数据方面有着雄厚的实力和强大的野心,它的商业数据业务也在蓬勃发展
9. 谷歌
作为全球搜索业务的老大,谷歌旗下的大数据平台凭借其身后的技术积累,成为商业数据领域内一股不可小觑的力量。
10. VMware
VMware向来以云计算虚拟化解决方案着称
Ⅲ hadoop是怎么存储大数据的
Hadoop中有很多方法可以加入多个数据集。MapRece提供了Map端和Rece端的数据连接。这些连接是非平凡的连接,并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接,合并连接和倾斜连接(skewed join),并且Hive提供了map端的连接和完整外部连接来分析数据。
一个重要的事实是,通过使用各种工具,比如MapRece、Pig和Hive等,数据可以基于它们的内置功能和实际需求来使用它们。至于在Hadoop分析大量数据,Anoop指出,通常,在大数据/Hadoop的世界,一些问题可能并不复杂,并且解决方案也是直截了当的,但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。
一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapRece、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。
Ⅳ “EMC存储”是什么
EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司。EMC是每一种主要计算平台的信息EMC存储标准,而且,世界上最重要信息中的 2/3 以上都是通过EMC的解决方案管理的。
主要的存储硬件产品有Symmetrix, CLARiiON, Data Domain, VNX等。
EMC 公司简介
信息是一家公司除人员之外最重要的资产。EMC 提供了各种技术和工具,帮助客户释放信息的力量。EMC是一家全球领导厂商,助力企业和服务提供商转变运营方式,以服务的形式提供IT。
EMC公司在全球拥有员工约49000人,2010年营业收入170亿美元,2011年第二季度的综合收入为48.5亿美元,同比增长20%。预期2011年的综合收入将超过198亿美元。 EMC通过创新的产品和服务,加速云计算之旅,帮助IT部门以更敏捷、更可信、成本效率更高的方式存储、管理、保护、分析他们最重要的资产——信息。
利用EMC技术及解决方案,企业可以避免潜在的严重风险,降低信息管理所产生的巨大成本,同时又能充分利用信息的价值来实现业务优势。
我们的客户包罗万
EMC与世界各地的机构合作,它们涵盖各个行业,包括公共事业和私营部门;而且规模不一,从创业公司到《财富 500 强》大企业。我们的客户包括电信,金融、制造商、医疗保健和生命科学机构、互联网服务和电信服务提供商、航空和运输公司、教育机构以及公共事业机构。EMC还为100多个国家的个人用户提供技术、产品和服务。
勇于创新,一路领先
我们与众不同的价值源自持续和大量的研发投入,全球各地数千名技术研发人员,业界最广泛的系统、软件和服务组合,我们自上而下设计、构建总成解决方案的能力,以及我们提供本行业乃至所有行业最佳全面客户体验的承诺。
从2003年到2010年,EMC研发投入总计为105亿美元,而累计用于战略并购的资金则达到140亿美金,EMC并购的公司约有50余家,其中包括VMware、RSA、Greenplum、Isilon等多家在“云和大数据”方向具备高度战略价值的公司。
2010年里,EMC执行了一系列战略计划,以加强公司在企业数据、云计算和大数据方面的技术领导地位和服务专长;同时增强了竞争优势,扩大了市场份额。在研发方面,EMC继续积极投入,投资额占到2010年综合收入的11%。
为了加强技术研发,扩大市场领域,我们在比利时、巴西、荷兰、爱尔兰、中国、印度、以色列、俄罗斯、新加坡和美国本土设立了研发中心,在美国、爱尔兰、巴西和深圳建立了生产工厂。我们拥有国际标准化组织(ISO 9001)最严格的质量管理认证,我们的生产工厂拥有MRP II A级认证。
2010年,EMC财年综合收入达到创纪录的170亿美元。EMC在纽约股票交易所交易,是标准普尔指数的成份股之一。2011年,EMC名列美国《财富》计算机行业最受尊敬公司第二位、美国《财富》500强企业152位。
Ⅳ 戴尔和EMC存储产品的区别
戴尔收购了EMC啊,你现在在购买EMC的产品就是通过戴尔购买的。戴尔的存储收购的品牌有EQ,康贝,包括EMC。EMC一般都是光纤存储,戴尔还有其他低端直链存储等等。
Ⅵ 大数据中心是什么中国最大的大数据中心在哪里
按理说,对于一个问题,其分析的数据量越多,得出的结果就会越准确。这就是大数据的高性能分析魅力十足的原因。对于一家公司来说,理论上它可以用充足的时间去收集大量数据,然后进行分析,从中得到一些独特的见解,从而做出企业的最优决策。但是通常情况下,这种理想情况在现实生活中是不会发生的。
大数据分析包含巨大的潜力,但如果分析的不准确,它就会转变成阻碍。由于技术限制和其他商业因素的考虑,数据分析公司解析数据得出的结果可能并不能反映实际情况。如果企业想要确保通过大数据分析得出的结论是他们想要的结果,他们就需要提高大数据分析的准确性。
在
理想的世界里,企业会收集大量的数据,分析它,并生成到他们要面对的问题的解决方案。但我们都知道,我们并没有生活在一个理想的世界。大数据分析结果往往
要在短时间内获得,一个企业可能没有足够先进的技术快速处理这么多的数据信息。这些限制导致许多企业对数据进行抽样分析。换句话说,他们不看所有的数据,
而是分析小部分的数据样品。尽管这可能是很多企业的战略,但这些分析结果非常可能是不准确的。
从上面的例子可以看出,大数据的中心就是保证大数据的准确性!!!