導航:首頁 > 數據處理 > 什麼是hbase資料庫

什麼是hbase資料庫

發布時間：2022-05-01 04:44:27

A. 為什麼說HBase是列式資料庫

Hbase是一個面向列存儲的分布式存儲系統，它的優點在於可以實現高性能的並發讀寫操作，同時Hbase還會對數據進行透明的切分，這樣就使得存儲本身具有了水平伸縮性。

通常，順序讀取數據要比隨機訪問更快。而且，硬碟定址時間的提升比起CPU速度的進步要慢得多 (參看摩爾定律)，在使用硬碟作為存儲媒介的系統上這種情況很可能還會持續一段時間。

下面簡單羅列了一些選擇行資料庫還是列資料庫的權衡依據。當然，如果能夠把數據全放在內存中，那麼使用內存資料庫性能會更好。

特點：

因為硬碟定址時間相較於計算機上其他部件的運行速度來說不是一般的慢，所以常用相同工作負載下的硬碟訪問性能來比較行資料庫和列資料庫。

在只需要根據某幾列來聚合數據的時候按列的數據組織方式更有效。因為這樣只需要讀取一部分數據，要比讀取全部數據更快。

當只需要修改某一列值的時候按列的數據組織方式更有效。因為可以直接找到某列數據並改，而與行中的其他列無關。

B. Hbase的特性有哪些

HBase不是一個關系型資料庫，它需要不同的方法定義你的數據模型，HBase實際上定義了一個四維數據模型，下面就是每一維度的定義：

行鍵：每行都有唯一的行鍵，行鍵沒有數據類型，它內部被認為是一個位元組數組。
列簇：數據在行中被組織成列簇，每行有相同的列簇，但是在行之間，相同的列簇不需要有相同的列修飾符。在引擎中，HBase將列簇存儲在它自己的數據文件中，所以，它們需要事先被定義，此外，改變列簇並不容易。
列修飾符：列簇定義真實的列，被稱之為列修飾符，你可以認為列修飾符就是列本身。
版本：每列都可以有一個可配置的版本數量，你可以通過列修飾符的制定版本獲取數據。

C. hbase的特點

hbase的特點：高可靠性、高性能、面向列、可伸縮的。

HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。

HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫，它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。

(3)什麼是hbase資料庫擴展閱讀

訪問介面：

1. Native Java API，最常規和高效的訪問方式，適合Hadoop MapRece Job並行批處理HBase表數據

2. HBase Shell，HBase的命令行工具，最簡單的介面，適合HBase管理使用

3. Thrift Gateway，利用Thrift序列化技術，支持C++，PHP，Python等多種語言，適合其他異構系統在線訪問HBase表數據

4. REST Gateway，支持REST 風格的Http API訪問HBase, 解除了語言限制

5. Pig，可以使用Pig Latin流式編程語言來操作HBase中的數據，和Hive類似，本質最終也是編譯成MapRece Job來處理HBase表數據，適合做數據統計。

D. 為什麼說hbase是一個面向列的資料庫

在說HBase之前，我想再嘮叨幾句。做互聯網應用的哥們兒應該都清楚，互聯網應用這東西，你沒辦法預測你的系統什麼時候會被多少人訪問，你面臨的用戶到底有多少，說不定今天你的用戶還少，明天系統用戶就變多了，結果您的系統應付不過來了了，不幹了，這豈不是咱哥幾個的悲哀，說時髦點就叫「杯具啊」。

其實說白了，這些就是事先沒有認清楚互聯網應用什麼才是最重要的。從系統架構的角度來說，互聯網應用更加看重系統性能以及伸縮性，而傳統企業級應用都是比較看重數據完整性和數據安全性。那麼我們就來說說互聯網應用伸縮性這事兒.對於伸縮性這事兒，哥們兒我也寫了幾篇博文，想看的兄弟可以參考我以前的博文，對於web server,app server的伸縮性，我在這里先不說了，因為這部分的伸縮性相對來說比較容易一點，我主要來回顧一些一個慢慢變大的互聯網應用如何應對資料庫這一層的伸縮。

首先剛開始，人不多，壓力也不大,搞一台資料庫伺服器就搞定了，此時所有的東東都塞進一個Server里，包括web server,app server,db server,但是隨著人越來越多，系統壓力越來越多，這個時候可能你把web server,app server和db server分離了，好歹這樣可以應付一陣子，但是隨著用戶量的不斷增加，你會發現，資料庫這哥們不行了，速度老慢了，有時候還會宕掉，所以這個時候，你得給資料庫這哥們找幾個伴，這個時候Master-Salve就出現了，這個時候有一個Master Server專門負責接收寫操作，另外的幾個Salve Server專門進行讀取，這樣Master這哥們終於不抱怨了，總算讀寫分離了，壓力總算輕點了,這個時候其實主要是對讀取操作進行了水平擴張，通過增加多個Salve來克服查詢時CPU瓶頸。一般這樣下來，你的系統可以應付一定的壓力，但是隨著用戶數量的增多，壓力的不斷增加，你會發現Master server這哥們的寫壓力還是變的太大，沒辦法，這個時候怎麼辦呢？你就得切分啊，俗話說「只有切分了，才會有伸縮性嘛」，所以啊，這個時候只能分庫了，這也是我們常說的資料庫「垂直切分」，比如將一些不關聯的數據存放到不同的庫中，分開部署，這樣終於可以帶走一部分的讀取和寫入壓力了，Master又可以輕松一點了，但是隨著數據的不斷增多，你的資料庫表中的數據又變的非常的大，這樣查詢效率非常低，這個時候就需要進行「水平分區」了，比如通過將User表中的數據按照10W來劃分，這樣每張表不會超過10W了。

綜上所述，一般一個流行的web站點都會經歷一個從單台DB，到主從復制，到垂直分區再到水平分區的痛苦的過程。其實資料庫切分這事兒，看起來原理貌似很簡單，如果真正做起來，我想凡是sharding過資料庫的哥們兒都深受其苦啊。對於資料庫伸縮的文章，哥們兒可以看看後面的參考資料介紹。

好了，從上面的那一堆廢話中，我們也發現資料庫存儲水平擴張scale out是多麼痛苦的一件事情，不過幸好技術在進步，業界的其它弟兄也在努力，09年這一年出現了非常多的NoSQL資料庫，更准確的應該說是No relation資料庫，這些資料庫多數都會對非結構化的數據提供透明的水平擴張能力，大大減輕了哥們兒設計時候的壓力。下面我就拿Hbase這分布式列存儲系統來說說。

一 Hbase是個啥東東？
在說Hase是個啥傢伙之前，首先我們來看看兩個概念，面向行存儲和面向列存儲。面向行存儲，我相信大夥兒應該都清楚，我們熟悉的RDBMS就是此種類型的，面向行存儲的資料庫主要適合於事務性要求嚴格場合，或者說面向行存儲的存儲系統適合OLTP，但是根據CAP理論，傳統的RDBMS，為了實現強一致性，通過嚴格的ACID事務來進行同步，這就造成了系統的可用性和伸縮性方面大大折扣，而目前的很多NoSQL產品，包括Hbase，它們都是一種最終一致性的系統，它們為了高的可用性犧牲了一部分的一致性。好像，我上面說了面向列存儲，那麼到底什麼是面向列存儲呢？Hbase,Casandra,Bigtable都屬於面向列存儲的分布式存儲系統。看到這里，如果您不明白Hbase是個啥東東，不要緊，我再總結一下下：

Hbase是一個面向列存儲的分布式存儲系統，它的優點在於可以實現高性能的並發讀寫操作，同時Hbase還會對數據進行透明的切分，這樣就使得存儲本身具有了水平伸縮性。

二 Hbase數據模型
HBase,Cassandra的數據模型非常類似，他們的思想都是來源於Google的Bigtable，因此這三者的數據模型非常類似，唯一不同的就是Cassandra具有Super cloumn family的概念，而Hbase目前我沒發現。好了，廢話少說，我們來看看Hbase的數據模型到底是個啥東東。

在Hbase裡面有以下兩個主要的概念，Row key,Column Family，我們首先來看看Column family,Column family中文又名「列族」，Column family是在系統啟動之前預先定義好的，每一個Column Family都可以根據「限定符」有多個column.下面我們來舉個例子就會非常的清晰了。

假如系統中有一個User表，如果按照傳統的RDBMS的話，User表中的列是固定的，比如schema 定義了name,age,sex等屬性，User的屬性是不能動態增加的。但是如果採用列存儲系統，比如Hbase，那麼我們可以定義User表，然後定義info 列族，User的數據可以分為：info:name = zhangsan,info:age=30,info:sex=male等，如果後來你又想增加另外的屬性，這樣很方便只需要info:newProperty就可以了。

也許前面的這個例子還不夠清晰，我們再舉個例子來解釋一下，熟悉SNS的朋友，應該都知道有好友Feed，一般設計Feed，我們都是按照「某人在某時做了標題為某某的事情」，但是同時一般我們也會預留一下關鍵字，比如有時候feed也許需要url，feed需要image屬性等，這樣來說，feed本身的屬性是不確定的，因此如果採用傳統的關系資料庫將非常麻煩，況且關系資料庫會造成一些為null的單元浪費，而列存儲就不會出現這個問題，在Hbase里，如果每一個column 單元沒有值，那麼是佔用空間的。下面我們通過兩張圖來形象的表示這種關系：

上圖是傳統的RDBMS設計的Feed表，我們可以看出feed有多少列是固定的，不能增加，並且為null的列浪費了空間。但是我們再看看下圖，下圖為Hbase，Cassandra,Bigtable的數據模型圖，從下圖可以看出，Feed表的列可以動態的增加，並且為空的列是不存儲的，這就大大節約了空間，關鍵是Feed這東西隨著系統的運行，各種各樣的Feed會出現，我們事先沒辦法預測有多少種Feed，那麼我們也就沒有辦法確定Feed表有多少列，因此Hbase,Cassandra,Bigtable的基於列存儲的數據模型就非常適合此場景。說到這里，採用Hbase的這種方式，還有一個非常重要的好處就是Feed會自動切分，當Feed表中的數據超過某一個閥值以後，Hbase會自動為我們切分數據，這樣的話，查詢就具有了伸縮性，而再加上Hbase的弱事務性的特性，對Hbase的寫入操作也將變得非常快。

上面說了Column family，那麼我之前說的Row key是啥東東，其實你可以理解row key為RDBMS中的某一個行的主鍵，但是因為Hbase不支持條件查詢以及Order by等查詢，因此Row key的設計就要根據你系統的查詢需求來設計了額。我還拿剛才那個Feed的列子來說，我們一般是查詢某個人最新的一些Feed，因此我們Feed的Row key可以有以下三個部分構成<userId><timestamp><feedId>，這樣以來當我們要查詢某個人的最進的Feed就可以指定Start Rowkey為<userId><0><0>，End Rowkey為<userId><Long.MAX_VALUE><Long.MAX_VALUE>來查詢了，同時因為Hbase中的記錄是按照rowkey來排序的，這樣就使得查詢變得非常快。

三 Hbase的優缺點
1 列的可以動態增加，並且列為空就不存儲數據,節省存儲空間.

2 Hbase自動切分數據，使得數據存儲自動具有水平scalability.

3 Hbase可以提供高並發讀寫操作的支持

Hbase的缺點：

1 不能支持條件查詢，只支持按照Row key來查詢.

2 暫時不能支持Master server的故障切換,當Master宕機後,整個存儲系統就會掛掉.

四.補充
1.數據類型，HBase只有簡單的字元類型，所有的類型都是交由用戶自己處理，它只保存字元串。而關系資料庫有豐富的類型和存儲方式。
2.數據操作：HBase只有很簡單的插入、查詢、刪除、清空等操作，表和表之間是分離的，沒有復雜的表和表之間的關系，而傳統資料庫通常有各式各樣的函數和連接操作。
3.存儲模式：HBase是基於列存儲的，每個列族都由幾個文件保存，不同的列族的文件時分離的。而傳統的關系型資料庫是基於表格結構和行模式保存的
4.數據維護，HBase的更新操作不應該叫更新，它實際上是插入了新的數據，而傳統資料庫是替換修改
5.可伸縮性，Hbase這類分布式資料庫就是為了這個目的而開發出來的，所以它能夠輕松增加或減少硬體的數量，並且對錯誤的兼容性比較高。而傳統資料庫通常需要增加中間層才能實現類似的功能

E. HBase數據結構是什麼

RowKey

與nosql資料庫們一樣,RowKey是用來檢索記錄的主鍵。訪問HBASE table中的行，只有三種方式：

通過單個RowKey訪問(get)
通過RowKey的range（正則）(like)
全表掃描(scan)
RowKey行鍵 (RowKey)可以是任意字元串(最大長度是64KB，實際應用中長度一般為 10-100bytes)，在HBASE內部，RowKey保存為位元組數組。存儲時，數據按照RowKey的字典序(byte order)排序存儲。設計RowKey時，要充分排序存儲這個特性，將經常一起讀取的行存儲放到一起。(位置相關性)

Column Family

列族：HBASE表中的每個列，都歸屬於某個列族。列族是表的schema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如 courses:history，courses:math都屬於courses 這個列族。

Cell

由{rowkey, column Family:columu, version} 唯一確定的單元。cell中的數據是沒有類型的，全部是位元組碼形式存貯。
關鍵字：無類型、位元組碼

Time Stamp

HBASE 中通過rowkey和columns確定的為一個存貯單元稱為cell。每個 cell都保存著同一份數據的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由HBASE(在數據寫入時自動 )賦值，此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數據版本沖突，就必須自己生成具有唯一性的時間戳。每個 cell中，不同版本的數據按照時間倒序排序，即最新的數據排在最前面。
為了避免數據存在過多版本造成的的管理 (包括存貯和索引)負擔，HBASE提供了兩種數據版本回收方式。一是保存數據的最後n個版本，二是保存最近一段時間內的版本（比如最近七天）。用戶可以針對每個列族進行設置。

命名空間

命名空間的結構:

Table：表，所有的表都是命名空間的成員，即表必屬於某個命名空間，如果沒有指定，則在default默認的命名空間中。
RegionServer group：一個命名空間包含了默認的RegionServer Group。
Permission：許可權，命名空間能夠讓我們來定義訪問控制列表ACL（Access Control List）。例如，創建表，讀取表，刪除，更新等等操作。
Quota：限額，可以強制一個命名空間可包含的region的數量。

F. Hbase和傳統資料庫的區別

HBase與傳統關系資料庫的區別？
答：主要體現在以下幾個方面：1.數據類型。關系資料庫採用關系模型，具有豐富的數據類型和儲存方式。HBase則採用了更加簡單的數據模型，它把數據儲存為未經解釋的字元串，用戶可以把不同格式的結構化數據和非結構化數據都序列化成字元串保存到HBase中，用戶需要自己編寫程序把字元串解析成不同的數據類型。
2.數據操作。關系資料庫中包含了豐富的操作，如插入、刪除、更新、查詢等，其中會涉及復雜的多表連接，通常是藉助多個表之間的主外鍵關聯來實現的。HBase操作則不存在復雜的表與表之間的關系，只有簡單的插入、查詢、刪除、清空等，因為HBase在設計上就避免了復雜的表與表之間的關系，通常只採用單表的主鍵查詢，所以它無法實現像關系資料庫中那樣的表與表之間的連接操作。
3.存儲模式。關系資料庫是基於行模式存儲的，元祖或行會被連續地存儲在磁碟頁中。在讀取數據時，需要順序掃描每個元組，然後從中篩選出查詢所需要的屬性。如果每個元組只有少量屬性的值對於查詢是有用的，那麼基於行模式存儲就會浪費許多磁碟空間和內存帶寬。HBase是基於列存儲的，每個列族都由幾個文件保存，不同列族的文件是分離的，它的優點是：可以降低I/O開銷，支持大量並發用戶查詢，因為僅需要處理可以回答這些查詢的列，而不是處理與查詢無關的大量數據行；同一個列族中的數據會被一起進行壓縮，由於同一列族內的數據相似度較高，因此可以獲得較高的數據壓縮比。
4.數據索引。關系資料庫通常可以針對不同列構建復雜的多個索引，以提高數據訪問性能。與關系資料庫不同的是，HBase只有一個索引——行鍵，通過巧妙的設計，HBase中所有訪問方法，或者通過行鍵訪問，或者通過行鍵掃描，從而使整個系統不會慢下來。由於HBase位於Hadoop框架之上，因此可以使用Hadoop MapRece來快速、高效地生成索引表。
6.數據維護。在關系資料庫中，更新操作會用最新的當前值去替換記錄中原來的舊值，舊值被覆蓋後就不會存在。而在HBase中執行更新操作時，並不會刪除數據舊的版本，而是生成一個新的版本，舊有的版本仍舊保留。
7.可伸縮性。關系資料庫很難實現橫向擴展，縱向擴展的空間也比較有限。相反，HBase和BigTable這些分布式資料庫就是為了實現靈活的水平擴展而開發的，因此能夠輕易地通過在集群中增加或者減少硬體數量來實現性能的伸縮。
但是，相對於關系資料庫來說，HBase也有自身的局限性，如HBase不支持事務，因此無法實現跨行的原子性。
註：本來也想來問這個問題，然後復制一下的。結果找不到，只好自己手打了，麻煩復制拿去用的同學點下贊唄。

G. Hbase與HDFS是個什麼關系

他們的關系是：hbase是一個內存資料庫，而hdfs是一個存儲空間；是物品和房子的關系。

hdfs只是一個存儲空間，他的完整名字是分布式文件系統。從名字可知他的作用了。
hbase是一個內存資料庫，簡單點說hbase把表啊什麼的存在hdfs上。

H. HBase是什麼為什麼要使用HBase

HBase在產品中還包含了Jetty，在HBase啟動時採用嵌入式的方式來啟動Jetty，因此可以通過web界面對HBase進行管理和查看當前運行的一些狀態，非常輕巧。為什麼採用HBase？HBase 不同於一般的關系資料庫,它是一個適合於非結構化數據存儲的資料庫.所謂非結構化數據存儲就是說HBase是基於列的而不是基於行的模式，這樣方面讀寫你的大數據內容。 HBase是介於Map Entry(key & value)和DB Row之間的一種數據存儲方式。就點有點類似於現在流行的Memcache，但不僅僅是簡單的一個key對應一個 value，你很可能需要存儲多個屬性的數據結構，但沒有傳統資料庫表中那麼多的關聯關系，這就是所謂的鬆散數據。簡單來說，你在HBase中的表創建的可以看做是一張很大的表，而這個表的屬性可以根據需求去動態增加，在HBase中沒有表與表之間關聯查詢。你只需要告訴你的數據存儲到Hbase的那個column families 就可以了，不需要指定它的具體類型：char,varchar,int,tinyint,text等等。但是你需要注意HBase中不包含事務此類的功能。 Apache HBase 和Google Bigtable 有非常相似的地方，一個數據行擁有一個可選擇的鍵和任意數量的列。表是疏鬆的存儲的，因此用戶可以給行定義各種不同的列，對於這樣的功能在大項目中非常實用，可以簡化設計和升級的成本。

I. hive 和hbase 有什麼區別

Apache Hive是一個構建在Hadoop基礎設施之上的數據倉庫。通過Hive可以使用HQL語言查詢存放在HDFS上的數據。HQL是一種類SQL語言，這種語言最終被轉化為Map/Rece. 雖然Hive提供了SQL查詢功能，但是Hive不能夠進行交互查詢--因為它只能夠在Haoop上批量的執行Hadoop。
Apache HBase是一種Key/Value系統，它運行在HDFS之上。和Hive不一樣，Hbase的能夠在它的資料庫上實時運行，而不是運行MapRece任務。Hive被分區為表格，表格又被進一步分割為列簇。列簇必須使用schema定義，列簇將某一類型列集合起來（列不要求schema定義）。例如，「message」列簇可能包含：「to」, 」from」「date」, 「subject」, 和」body」. 每一個 key/value對在Hbase中被定義為一個cell，每一個key由row-key，列簇、列和時間戳。在Hbase中，行是key/value映射的集合，這個映射通過row-key來唯一標識。Hbase利用Hadoop的基礎設施，可以利用通用的設備進行水平的擴展。

閱讀全文

與什麼是hbase資料庫相關的資料

熱點內容

基金交易費用什麼時候扣除的發布：2025-03-18 09:07:36 瀏覽：892

多少萬以上工程需要招代理發布：2025-03-18 09:01:58 瀏覽：724

農信手機銀行如何截圖交易記錄發布：2025-03-18 08:47:37 瀏覽：719

爬取數據後如何存儲發布：2025-03-18 08:46:53 瀏覽：140

大連有哪些職業技術學校大專發布：2025-03-18 07:57:02 瀏覽：979

專送如何解綁代理商發布：2025-03-18 07:57:01 瀏覽：224

富人發信息怎麼打招呼發布：2025-03-18 07:50:26 瀏覽：820

買了二手房如何交易發布：2025-03-18 07:50:23 瀏覽：318

多多買菜做代理商怎麼賺錢發布：2025-03-18 07:36:41 瀏覽：772

駕駛技術生疏怎麼練習發布：2025-03-18 07:36:03 瀏覽：913

蜂窩數據漫遊如何打開發布：2025-03-18 07:35:12 瀏覽：471

五金加工產品包括哪些發布：2025-03-18 07:32:58 瀏覽：46

肉類技術型是什麼意思發布：2025-03-18 07:24:57 瀏覽：360

股票交易新盈利16筆怎麼投發布：2025-03-18 07:23:27 瀏覽：58

qq中媒體數據是什麼發布：2025-03-18 07:11:07 瀏覽：332

交易貓怎麼找商店客服發布：2025-03-18 07:09:35 瀏覽：593

生產產品用的鋼材屬於什麼科目發布：2025-03-18 07:03:13 瀏覽：371

微商清貨商城有哪些代理發布：2025-03-18 07:03:03 瀏覽：798

鬢角用什麼技術修剪發布：2025-03-18 06:55:07 瀏覽：629

市場干什麼利潤大發布：2025-03-18 06:45:50 瀏覽：968