導航:首頁 > 數據處理 > 什麼是數據湖

什麼是數據湖

發布時間:2022-02-01 02:17:44

A. 什麼是湖泊

湖泊是湖盆、湖水和水中所含物質所組成的自然綜合體,並參與自然界的物質和能量循環,因此,被陸地包圍的內陸水體叫湖泊。

我國疆域遼闊,河流湖泊也非常多,也有些人不太清楚湖泊的概念。下面就來說說什麼是湖泊。
01
湖泊:湖的總稱,大片內陸死水、河流的擴張部分,攔成的水庫或間歇性的或以前曾被水覆蓋的湖床。陸地表面窪地積水形成的比較寬廣的水域。現代地質學定義:陸地上窪地積水形成的、水域比較寬廣、換流緩慢的水體。漢語定義:湖與泊共為陸地水域,但湖指水面有蘆葦等水草的水域,泊指水面無蘆葦等水草的水域。
02
在全世界的湖泊中,因冰川作用而形成的多於按其他方式而形成的。在北半球的冰期中,大片的冰川冰緩慢地向南流過北美的北部、歐洲和亞洲,攜帶著大量從冰川下面的岩石表面刮下的碎石和岩屑。在較軟弱的岩石區冰川刨出很多盆地。其他盆地是在冰河留下一部分岩屑處形成的,這些岩屑築壩攔阻過去的河谷。今天,加拿大中部、明尼蘇達州、密歇根州和威斯康星州及類似的冰川區內的無數湖泊,主要都位於這類稱為冰磧盆地的盆地中。
03
某些大湖是過去冰川的大規模侵蝕和大量沉積的結果。紐約州西部的芬格湖群位於被冰颳得更深和被冰川沉積築壩攔阻的舊河谷中。北美的五大湖位於古河谷或低地中,其邊緣由稱為冰磧的冰川沉積所構成。五大湖覆蓋約245000平方千米,形成一條大型的內陸水路和世界上水域最大的淡水湖。蘇必利爾湖是面積最大的淡水湖,只有鹹水湖裡海大於它。
04
湖泊的另一成因是通過火山作用而形成。在世界許多地區,由死火山口形成小型湖泊。法國南部的奧弗涅地區、德國北部的艾費爾地區和義大利羅馬周圍的地區有許多這頓;弗吉尼亞州的里士滿;南卡羅來納州的哥倫比亞和喬治亞州的奧古斯塔和哥倫布。有些火山的頂峰已在巨大噴發中被吹掉,或者是火山中心塌陷,留下大坑或稱破火山口,從而形成湖泊。
05
阿拉斯加的卡特邁火山在1912年猛烈爆發,形成一個大坑,直徑4000米,深900米。從此以後,其底部形成一個1600米寬的溫水湖。另一個這樣形成的非常美麗的湖泊是俄勒岡州南部的火山口湖。它深589米,深藍色。
06
過去,海底的有些部分上升而形成陸地。這些地面上的淺而不規則的盆地殘留下來而形成湖泊。降雨時用淡水補充原來的鹽水,它們就成為淡水湖。佛羅里達州的南部和西伯利亞冷原的一些湖泊也是按此方式形成的。

B. 如何構建下一代大數據架構 數據湖

構建數據湖不是一個簡單的過程,必須決定採集哪些數據,以及如何組織和編目數據。 雖然它不是一個自動化的過程,但有相應的工具和產品來簡化企業級現代數據湖架構的創建和管理。這些工具允許提取不同類型的數據包括流,結構化和非結構化,所有這些都為敏捷數據湖平台的創建打下了基礎。

C. 如何搭建數據湖架構

EdoInteractive在幾年前遇到一個大問題:公司使用交易數據來幫助零售商和餐館進行個性化促銷,但其數據倉庫沒有足夠時間去處理所有的信用卡和借記卡交易數據

「我們要花費27小時來處理每日的數據量,」Edo主管基礎設施和信息系統的高級副總裁TimGarnto說道:「所以在2013年,我們放棄了現有的基於PostgreSQL的關系型資料庫系統,使用了Hadoop集群作為公司的數據湖架構。」

Garnto的團隊一天中需要收集5000多萬條美國零售交易數據,並分發到20個節點的集群中,這些節點運行在Cloudera的Hadoop分布式機架上,使用Pentaho的數據集成工具。從銀行和信用卡公司收集到的數據,會被傳入設計好的預測模型中,以確定個體持卡人所需的優惠券。Edo的業務夥伴每周通過電子郵件發出優惠券,這些優惠券會在產生對應消費時生效。

每日的數據構建時間縮減到大約四個小時,Garnto表示,根據正在運行模型的復雜性,Edo的數據分析師能「在幾分鍾或幾小時內完成他們的工作。而以前,他們可能累的要死。

但數據湖上並不總是陽光燦爛,一帆風順的。起初,Edo只有一個員工具有HadoopMapRece編程框架的經驗。公司聯合Chicago總部和Nashville分部,對其他員工進行Hadoop技術內部培訓,但後來這使得他們不得放棄了熟悉的數據查詢方式。「我們花了很多時間更新這一過程。」Garnto說。

創建一個保證原始數據一致性和生成標准化分析數據集的兩步程序也需要花時間去解決。目前擁有包含450億條記錄(總共255TB的數據)的集群,已成為Edo業務操作的核心,對於這個集群,Garnto需要小心管理,謹慎添加新的Hadoop生態技術。否則,對公司某個部分的調整可能會影響整個系統對其他部分的工作處理。

數據湖使實時分析成為了可能

Webtrends公司是另一家數據湖的使用者,該公司收集並處理網站、手機、物聯網上的活動數據。這家位於波特蘭的公司於2014年7月部署了基於Hortonworks的Hadoop集群,目前正在試用階段,計劃在2015年初完全實現。它最初只支持了一個叫Explore的產品,讓企業營銷人員做客戶數據的專項分析。Webtrends產品架構主管PeterCrossley表示,每個季度大約有500TB的數據添加到60個節點的集群中,現在總共有1.28PB。

隨著時間的推移,Webtrends計劃使用Hadoop平台代替自有的數據網路附加存儲平面文件系統。Crossley表示,使用ApacheKafka消息隊列和自動化腳本處理技術,互聯網點擊流數據可以湧入集群和並在20至40毫秒內做好分析准備工作。因此,報表和分析過程幾乎可以在瞬間開始,這比老系統快得多。Hadoop集群還支持進階分析,且能降低25%到50%的硬體成本。

Crossley表示,採用數據湖概念需要公司內部在管理和使用Webtrends為客戶收集的信息時做到「思路上的轉變」。之前,該公司主要使用數據存儲構建通用報表。但是,一個數據湖與其說是一個真理,不如說是真理的來源,在其之上,您可以構建多個數據集以供不同的分析用途。

Webtrends也不得不認真考慮其數據湖的架構和數據治理過程,以防止Hadoop集群變成「數據沼澤」,正如Crossley所說。剛剛進入系統的原始數據結構十分鬆散(+微信關注網路世界),但是應該有非常嚴格的規則來規定其應該是什麼樣子。此外,他的團隊已經將集群分成三個不同的層次:一個用於原始數據,第二個用於日增量數據集,另一個用於存儲需要被納入的第三方信息。基於不同的數據集細節,每一層次都具有自己的數據分類和治理策略。

對你的數據保持控制

Razorsight公司CTOSurenNathan還指出,建立和管理一個Hadoop數據湖需要具備良好的紀律性和組織性。否則系統很快就會變成一個失控的垃圾場,就像一個由很多文件組成的SharePoint,沒有人知道如何找到這些文件。

Razorsight為電信企業提供了一組基於雲的分析服務,2014年第二季度開始使用運行在Hadoop集群上MapR技術。客戶組、操作和網路數據通過自有工具被輸入到系統中,通過Spark引擎的處理後,由Razorsight數據科學家進行分析;集群具有五個生產節點和120TB的存儲容量。

和Webtrends類似的,Razorsight數據湖被分割成三個分區。在Razorsight的案例中,一個數據湖能夠存儲不到六個月的數據,另一個包含舊的但仍然活躍的數據,第三則存儲不再使用的但需要保留的信息。目前,在這兩個活動區域中有超過20TB的數據。為了保證系統工作平穩,Razorsight招聘了具備分布式系統的數據治理和開發經驗的新員工,同時也培訓現有員工使用Hadoop,Spark和相關技術的能力。

目前是遷移到新平台的階段。每TB大約花費2000美元,Hadoop集群成本僅僅是公司之前所部署的IBMNetezza數據倉庫系統的十分之一。但Nathan表示,Razorsight首先建立專門用於數據存儲的集群,然後再進入處理和准備階段。因為Netezza硬體和IBMSPSS分析軟體之間存在的緊密聯系,分析建模和數據可視化仍會存在於舊的系統中。建模將保持現狀,但Nathan預計到今年年底,將可視化層和Razorsight分析結果數據轉移到數據湖架構中。
轉自網界網:http://software.cnw.com.cn/software-database/htm2015/20150709_321300.shtml

來自TechTarget中國的作者:CraigStedman分享
轉自網界網:http://software.cnw.com.cn/software-database/htm2015/20150709_321300.shtml

D. 如何區別資料庫、數據中台、數據湖

數據湖、數據倉庫和數據中台,他們並沒有直接的關系,只是他們為業務產生價值的形式有不同的側重。

一、區別:

數據湖作為一個集中的存儲庫,可以在其中存儲任意規模的所有結構化和非結構化數據。在數據湖中,可以存儲數據不需要對其進行結構化,就可以運行不同類型的分析。

數據倉庫,也稱為企業數據倉庫,是一種數據存儲系統,它將來自不同來源的結構化數據聚合起來,用於業務智能領域的比較和分析,數據倉庫是包含多種數據的存儲庫,並且是高度建模的。

數據中台是一個承接技術,引領業務,構建規范定義的、全域可連接萃取的、智慧的數據處理平台,建設目標是為了高效滿足前台數據分析和應用的需求。數據中台距離業務更近,能更快速的相應業務和應用開發的需求,可追溯,更精準。

二、關系:

數據湖、數據倉庫更多地是面向不同對象的不同形態的數據資產。而數據中台更多強調的是服務於前台,實現邏輯、標簽、演算法、模型的復用沉澱。

數據中台像一個「數據工廠」,涵蓋了數據湖、數據倉庫等存儲組件,隨著數據中台的發展,未來很有可能數據湖和數據倉庫的概念會被弱化。

三、小結:

數據空間持續增長,為了更好地發揮數據價值,未來數據技術趨於融合,同時也在不斷創新。

E. 數據湖是什麼東東 數據湖的四個最佳實踐

數據湖聽起來很簡單:
把數據或信息匯集到一個結合處理速度和存儲空間的大數據系統――Hadoop集群或內存解決方案,那樣業務部門就能訪問數據,獲取新的洞察力。
不過,與IT行業的許多技術一樣,現實比夢想困難得多。

F. 數據湖和數據倉庫的區別是什麼

數據湖和數據倉庫的區別:

一個數據湖專門用於存儲任何形式的數據,即結構化或非結構化。它還使我們能夠以其本機格式保存大量原始數據,直到需要它為止。該術語主要與面向Hadoop的對象存儲相關。在這種情況下,首先將組織的數據載入到Hadoop平台,然後再載入到業務分析。進一步,將數據挖掘工具添加到該數據中,該數據挖掘工具通常位於商用計算機的Hadoop群集節點中。

數據倉庫

而數據倉庫收集來自多個源(內部或外部),該數據被進一步用於商業目的優化的數據。以這種形式,數據大部分是結構化的,並來自關系資料庫。但是,也可以收集非結構化數據,但是大多數情況是要收集結構化數據。

數據湖與數據倉庫:兩者都使用兩種不同的策略來存儲數據。

兩者之間的主要區別之一是,在數據湖中沒有特定的預定架構,它可以輕松容納結構化或非結構化數據。數據湖的概念僅在2000年才開始興起,國內數據湖的概念也是在2020年才由阿里在雲棲大會上提出並展露鋒芒,數據湖展示了如何存儲數據以及如何同時節省成本。

但數據倉庫卻不是這種情況,數據倉庫通常由確定的架構組成並處理主數據。

數據湖和數據倉庫在處理非結構化數據方面足夠有效,但是隨著生成的數據量的增加,存儲所有數據可能會變得昂貴。除此之外,這很耗時並且需要相當長的時間來進行分析和存儲。數據湖之所以走到最前沿的眾多原因之一。它可以最有效,最經濟地處理非結構化數據。

作為數據分析專業人士,您需要了解以下兩個術語之間的區別:

1.數據湖中使用的像大數據這樣的技術是一個新概念,但是,像數據倉庫這樣的概念已經使用了數十年。

2.在數據湖中,無論其結構如何,都可以存儲數據,並以原始形式保存數據,直到需要使用為止。但是在數據倉庫中,提取的數據組成了定量指標,其中對數據進行了清理和轉換。

3.數據湖具有存儲所有數據的能力,可以存儲當前數據和將來需要使用的數據。在數據倉庫中,需要花費大量時間專門用於分析多個源。

4.數據湖可以收集所有類型的數據,包括結構化和非結構化。但是,在數據倉庫中,它會收集結構化數據並將其按照專門為數據倉庫設計的架構進行排列。

5.數據湖包含所有類型的數據,並促使用戶在處理和清除數據之前訪問數據。數據倉庫提供對預定義數據類型的預定義問題的見解。

隨著非結構化數據的不斷增長,數據湖的興起將變得越來越流行。但是,仍然需要數據倉庫。因此,根據您的項目,您可能需要選擇最佳的存儲解決方案。

G. 企業數據湖一般使用什麼數據存儲平台

我了解的一般數據湖使用的大多是XSKY星辰天合的XEDP 平台,它可以多協議互通,支撐 Hadoop 原地(in place)分析,數據無需復制和移動,滿足各種類型的數據的統一存儲。

H. 聊城數據湖的工作環境對人體有害嗎

聊城數據湖的工作環境對人體沒有害,其主要是電腦系統數據存儲設備,對人體沒有什麼傷害。

閱讀全文

與什麼是數據湖相關的資料

熱點內容
汽車產品分類如何劃分 瀏覽:78
安康二手農用車交易市場在哪裡 瀏覽:316
dnf怎麼跟玩家交易 瀏覽:599
如何應對農貿市場疫情 瀏覽:276
開螺技術怎麼樣 瀏覽:365
大數據調查英語怎麼表達 瀏覽:828
資料庫到期會有什麼後果 瀏覽:844
百度地圖店鋪信息錯誤怎麼更正 瀏覽:976
微信游戲怎麼改數據 瀏覽:332
支付寶銀行存款產品如何單筆三萬 瀏覽:579
醫葯區域銷售代理需要多少錢 瀏覽:895
審判文書送達到什麼程序 瀏覽:324
中山石岐哪裡有寵物市場 瀏覽:730
河南省代理記賬公司怎麼收費 瀏覽:747
如何談商業樓盤代理 瀏覽:700
銀行如何定位信用卡是否正常交易 瀏覽:539
怎麼設置手動代理上網 瀏覽:62
王道天勤數據結構看哪個 瀏覽:124
excel如何把人名對應的數據匯總 瀏覽:832
賣服裝代理是怎麼回事 瀏覽:606