导航:首页 > 数据处理 > 什么是数据湖

什么是数据湖

发布时间：2022-02-01 02:17:44

A. 什么是湖泊

湖泊是湖盆、湖水和水中所含物质所组成的自然综合体，并参与自然界的物质和能量循环，因此，被陆地包围的内陆水体叫湖泊。

我国疆域辽阔，河流湖泊也非常多，也有些人不太清楚湖泊的概念。下面就来说说什么是湖泊。
01
湖泊：湖的总称，大片内陆死水、河流的扩张部分，拦成的水库或间歇性的或以前曾被水覆盖的湖床。陆地表面洼地积水形成的比较宽广的水域。现代地质学定义：陆地上洼地积水形成的、水域比较宽广、换流缓慢的水体。汉语定义：湖与泊共为陆地水域，但湖指水面有芦苇等水草的水域，泊指水面无芦苇等水草的水域。
02
在全世界的湖泊中，因冰川作用而形成的多于按其他方式而形成的。在北半球的冰期中，大片的冰川冰缓慢地向南流过北美的北部、欧洲和亚洲，携带着大量从冰川下面的岩石表面刮下的碎石和岩屑。在较软弱的岩石区冰川刨出很多盆地。其他盆地是在冰河留下一部分岩屑处形成的，这些岩屑筑坝拦阻过去的河谷。今天，加拿大中部、明尼苏达州、密歇根州和威斯康星州及类似的冰川区内的无数湖泊，主要都位于这类称为冰碛盆地的盆地中。
03
某些大湖是过去冰川的大规模侵蚀和大量沉积的结果。纽约州西部的芬格湖群位于被冰刮得更深和被冰川沉积筑坝拦阻的旧河谷中。北美的五大湖位于古河谷或低地中，其边缘由称为冰碛的冰川沉积所构成。五大湖覆盖约245000平方千米，形成一条大型的内陆水路和世界上水域最大的淡水湖。苏必利尔湖是面积最大的淡水湖，只有咸水湖里海大于它。
04
湖泊的另一成因是通过火山作用而形成。在世界许多地区，由死火山口形成小型湖泊。法国南部的奥弗涅地区、德国北部的艾费尔地区和意大利罗马周围的地区有许多这顿；弗吉尼亚州的里士满；南卡罗来纳州的哥伦比亚和佐治亚州的奥古斯塔和哥伦布。有些火山的顶峰已在巨大喷发中被吹掉，或者是火山中心塌陷，留下大坑或称破火山口，从而形成湖泊。
05
阿拉斯加的卡特迈火山在1912年猛烈爆发，形成一个大坑，直径4000米，深900米。从此以后，其底部形成一个1600米宽的温水湖。另一个这样形成的非常美丽的湖泊是俄勒冈州南部的火山口湖。它深589米，深蓝色。
06
过去，海底的有些部分上升而形成陆地。这些地面上的浅而不规则的盆地残留下来而形成湖泊。降雨时用淡水补充原来的盐水，它们就成为淡水湖。佛罗里达州的南部和西伯利亚冷原的一些湖泊也是按此方式形成的。

B. 如何构建下一代大数据架构数据湖

构建数据湖不是一个简单的过程，必须决定采集哪些数据，以及如何组织和编目数据。虽然它不是一个自动化的过程，但有相应的工具和产品来简化企业级现代数据湖架构的创建和管理。这些工具允许提取不同类型的数据包括流，结构化和非结构化，所有这些都为敏捷数据湖平台的创建打下了基础。

C. 如何搭建数据湖架构

EdoInteractive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据

“我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁TimGarnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数据湖架构。”

Garnto的团队一天中需要收集5000多万条美国零售交易数据，并分发到20个节点的集群中,这些节点运行在Cloudera的Hadoop分布式机架上，使用Pentaho的数据集成工具。从银行和信用卡公司收集到的数据，会被传入设计好的预测模型中，以确定个体持卡人所需的优惠券。Edo的业务伙伴每周通过电子邮件发出优惠券，这些优惠券会在产生对应消费时生效。

每日的数据构建时间缩减到大约四个小时，Garnto表示，根据正在运行模型的复杂性，Edo的数据分析师能“在几分钟或几小时内完成他们的工作。而以前，他们可能累的要死。

但数据湖上并不总是阳光灿烂，一帆风顺的。起初，Edo只有一个员工具有HadoopMapRece编程框架的经验。公司联合Chicago总部和Nashville分部，对其他员工进行Hadoop技术内部培训，但后来这使得他们不得放弃了熟悉的数据查询方式。“我们花了很多时间更新这一过程。”Garnto说。

创建一个保证原始数据一致性和生成标准化分析数据集的两步程序也需要花时间去解决。目前拥有包含450亿条记录(总共255TB的数据)的集群，已成为Edo业务操作的核心，对于这个集群，Garnto需要小心管理，谨慎添加新的Hadoop生态技术。否则，对公司某个部分的调整可能会影响整个系统对其他部分的工作处理。

数据湖使实时分析成为了可能

Webtrends公司是另一家数据湖的使用者，该公司收集并处理网站、手机、物联网上的活动数据。这家位于波特兰的公司于2014年7月部署了基于Hortonworks的Hadoop集群，目前正在试用阶段，计划在2015年初完全实现。它最初只支持了一个叫Explore的产品，让企业营销人员做客户数据的专项分析。Webtrends产品架构主管PeterCrossley表示，每个季度大约有500TB的数据添加到60个节点的集群中，现在总共有1.28PB。

随着时间的推移，Webtrends计划使用Hadoop平台代替自有的数据网络附加存储平面文件系统。Crossley表示，使用ApacheKafka消息队列和自动化脚本处理技术，互联网点击流数据可以涌入集群和并在20至40毫秒内做好分析准备工作。因此，报表和分析过程几乎可以在瞬间开始，这比老系统快得多。Hadoop集群还支持进阶分析，且能降低25%到50%的硬件成本。

Crossley表示，采用数据湖概念需要公司内部在管理和使用Webtrends为客户收集的信息时做到“思路上的转变”。之前，该公司主要使用数据存储构建通用报表。但是，一个数据湖与其说是一个真理，不如说是真理的来源，在其之上，您可以构建多个数据集以供不同的分析用途。

Webtrends也不得不认真考虑其数据湖的架构和数据治理过程，以防止Hadoop集群变成“数据沼泽”，正如Crossley所说。刚刚进入系统的原始数据结构十分松散(+微信关注网络世界)，但是应该有非常严格的规则来规定其应该是什么样子。此外，他的团队已经将集群分成三个不同的层次：一个用于原始数据，第二个用于日增量数据集，另一个用于存储需要被纳入的第三方信息。基于不同的数据集细节，每一层次都具有自己的数据分类和治理策略。

对你的数据保持控制

Razorsight公司CTOSurenNathan还指出，建立和管理一个Hadoop数据湖需要具备良好的纪律性和组织性。否则系统很快就会变成一个失控的垃圾场，就像一个由很多文件组成的SharePoint，没有人知道如何找到这些文件。

Razorsight为电信企业提供了一组基于云的分析服务，2014年第二季度开始使用运行在Hadoop集群上MapR技术。客户组、操作和网络数据通过自有工具被输入到系统中，通过Spark引擎的处理后，由Razorsight数据科学家进行分析;集群具有五个生产节点和120TB的存储容量。

和Webtrends类似的，Razorsight数据湖被分割成三个分区。在Razorsight的案例中，一个数据湖能够存储不到六个月的数据，另一个包含旧的但仍然活跃的数据，第三则存储不再使用的但需要保留的信息。目前，在这两个活动区域中有超过20TB的数据。为了保证系统工作平稳，Razorsight招聘了具备分布式系统的数据治理和开发经验的新员工，同时也培训现有员工使用Hadoop，Spark和相关技术的能力。

目前是迁移到新平台的阶段。每TB大约花费2000美元，Hadoop集群成本仅仅是公司之前所部署的IBMNetezza数据仓库系统的十分之一。但Nathan表示，Razorsight首先建立专门用于数据存储的集群，然后再进入处理和准备阶段。因为Netezza硬件和IBMSPSS分析软件之间存在的紧密联系，分析建模和数据可视化仍会存在于旧的系统中。建模将保持现状，但Nathan预计到今年年底，将可视化层和Razorsight分析结果数据转移到数据湖架构中。
转自网界网：http://software.cnw.com.cn/software-database/htm2015/20150709_321300.shtml

来自TechTarget中国的作者：CraigStedman分享
转自网界网：http://software.cnw.com.cn/software-database/htm2015/20150709_321300.shtml

D. 如何区别数据库、数据中台、数据湖

数据湖、数据仓库和数据中台，他们并没有直接的关系，只是他们为业务产生价值的形式有不同的侧重。

一、区别：

数据湖作为一个集中的存储库，可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中，可以存储数据不需要对其进行结构化，就可以运行不同类型的分析。

数据仓库，也称为企业数据仓库，是一种数据存储系统，它将来自不同来源的结构化数据聚合起来，用于业务智能领域的比较和分析，数据仓库是包含多种数据的存储库，并且是高度建模的。

数据中台是一个承接技术，引领业务，构建规范定义的、全域可连接萃取的、智慧的数据处理平台，建设目标是为了高效满足前台数据分析和应用的需求。数据中台距离业务更近，能更快速的相应业务和应用开发的需求，可追溯，更精准。

二、关系：

数据湖、数据仓库更多地是面向不同对象的不同形态的数据资产。而数据中台更多强调的是服务于前台，实现逻辑、标签、算法、模型的复用沉淀。

数据中台像一个“数据工厂”，涵盖了数据湖、数据仓库等存储组件，随着数据中台的发展，未来很有可能数据湖和数据仓库的概念会被弱化。

三、小结：

数据空间持续增长，为了更好地发挥数据价值，未来数据技术趋于融合，同时也在不断创新。

E. 数据湖是什么东东数据湖的四个最佳实践

数据湖听起来很简单：
把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案，那样业务部门就能访问数据，获取新的洞察力。
不过，与IT行业的许多技术一样，现实比梦想困难得多。

F. 数据湖和数据仓库的区别是什么

数据湖和数据仓库的区别：

一个数据湖专门用于存储任何形式的数据，即结构化或非结构化。它还使我们能够以其本机格式保存大量原始数据，直到需要它为止。该术语主要与面向Hadoop的对象存储相关。在这种情况下，首先将组织的数据加载到Hadoop平台，然后再加载到业务分析。进一步，将数据挖掘工具添加到该数据中，该数据挖掘工具通常位于商用计算机的Hadoop群集节点中。

数据仓库

而数据仓库收集来自多个源（内部或外部），该数据被进一步用于商业目的优化的数据。以这种形式，数据大部分是结构化的，并来自关系数据库。但是，也可以收集非结构化数据，但是大多数情况是要收集结构化数据。

数据湖与数据仓库：两者都使用两种不同的策略来存储数据。

两者之间的主要区别之一是，在数据湖中没有特定的预定架构，它可以轻松容纳结构化或非结构化数据。数据湖的概念仅在2000年才开始兴起，国内数据湖的概念也是在2020年才由阿里在云栖大会上提出并展露锋芒，数据湖展示了如何存储数据以及如何同时节省成本。

但数据仓库却不是这种情况，数据仓库通常由确定的架构组成并处理主数据。

数据湖和数据仓库在处理非结构化数据方面足够有效，但是随着生成的数据量的增加，存储所有数据可能会变得昂贵。除此之外，这很耗时并且需要相当长的时间来进行分析和存储。数据湖之所以走到最前沿的众多原因之一。它可以最有效，最经济地处理非结构化数据。

作为数据分析专业人士，您需要了解以下两个术语之间的区别：

1.数据湖中使用的像大数据这样的技术是一个新概念，但是，像数据仓库这样的概念已经使用了数十年。

2.在数据湖中，无论其结构如何，都可以存储数据，并以原始形式保存数据，直到需要使用为止。但是在数据仓库中，提取的数据组成了定量指标，其中对数据进行了清理和转换。

3.数据湖具有存储所有数据的能力，可以存储当前数据和将来需要使用的数据。在数据仓库中，需要花费大量时间专门用于分析多个源。

4.数据湖可以收集所有类型的数据，包括结构化和非结构化。但是，在数据仓库中，它会收集结构化数据并将其按照专门为数据仓库设计的架构进行排列。

5.数据湖包含所有类型的数据，并促使用户在处理和清除数据之前访问数据。数据仓库提供对预定义数据类型的预定义问题的见解。

随着非结构化数据的不断增长，数据湖的兴起将变得越来越流行。但是，仍然需要数据仓库。因此，根据您的项目，您可能需要选择最佳的存储解决方案。

G. 企业数据湖一般使用什么数据存储平台

我了解的一般数据湖使用的大多是XSKY星辰天合的XEDP 平台，它可以多协议互通，支撑 Hadoop 原地（in place）分析，数据无需复制和移动，满足各种类型的数据的统一存储。

H. 聊城数据湖的工作环境对人体有害吗

聊城数据湖的工作环境对人体没有害，其主要是电脑系统数据存储设备，对人体没有什么伤害。

阅读全文

与什么是数据湖相关的资料

热点内容

期货短期交易看多少分钟发布：2025-03-17 15:50:47 浏览：625

dwg藏有哪些信息发布：2025-03-17 15:50:46 浏览：183

别人文章中数据如何处理发布：2025-03-17 15:45:47 浏览：569

蜜植素怎么查是不是代理发布：2025-03-17 15:39:22 浏览：657

个人收汇交易编码是多少发布：2025-03-17 15:36:58 浏览：839

世界信教人数有多少最新数据发布：2025-03-17 15:32:48 浏览：327

财务会计信息化应用哪里报名发布：2025-03-17 15:25:20 浏览：49

c程序最前面应该写什么发布：2025-03-17 15:23:01 浏览：504

如何有效管理工作群信息发布：2025-03-17 14:44:05 浏览：718

程序的别名有什么用发布：2025-03-17 14:44:04 浏览：408

产品拍摄如何防止反光发布：2025-03-17 14:44:03 浏览：335

借贷要提供哪些信息发布：2025-03-17 14:36:49 浏览：726

档案技术服务属于什么类别合同发布：2025-03-17 14:31:29 浏览：402

有赞微信小程序有什么区别发布：2025-03-17 14:25:31 浏览：866

取保候审程序如何走发布：2025-03-17 14:23:35 浏览：130

我想卖电动车怎么加盟代理发布：2025-03-17 14:22:38 浏览：565

做铝合金代理怎么样发布：2025-03-17 14:21:00 浏览：558

数据中心电费多少发布：2025-03-17 14:16:03 浏览：268

如何做好党政信息工作讲稿发布：2025-03-17 14:10:20 浏览：440

宏业数据库无法连接什么原因发布：2025-03-17 14:09:30 浏览：839