A. 如何搭建現代化的雲計算數據中心
在雲計算和大數據遍地開花的今天,很多個人及企業級客戶對自己的數據存放環境並沒有一個很直觀的認識,包括電商從業者(雲主機,雲空間),私有雲、公有雲及混合雲企業用戶等等。
而數據中心內部結構繁多、組成復雜,經過多年行業積累,客戶在選擇數據中心時主要關注數據中心等級、選址標准、建築與結構、電力、暖通、消防、監控和網路這幾個方面。
?
現代數據中心供電系統的典型架構
有孚網路自建及合作的雲計算數據中心已經覆蓋北京、上海、廣州、深圳等地,並通過這些核心節點輻射各大區域。高等級標准建造,電力系統滿足A類機房要求,每個雲計算數據中心均引入來自不同變電站的雙路市電,擁有雙路UPS並行輸電,並配置雙路柴油發電機,提供不間斷電源,保障業務安全、穩定、可持續發展。
對於金融行業數據中心來說,要滿足其安全可靠的要求,供電系統需達到A級標准。那麼,在A類級別的數據中心中,它的供電系統又是怎麼要求的呢?
1、 由來自兩個不同的變電站引入兩路市電電源,同時工作、互為備用;
2、 機房內設有能夠滿足UPS電源、機房空調、照明等設備用電的專用柴油發電機,且備用有同樣標準的柴油發電機,即柴油發電機系統需達到:(N+X)冗餘 (X=1,2,3,4……)的要求;
3、 為了使數據中心的電力持續供應,需使用兩套獨立的UPS供電系統,來保證數據中心的供電,即UPS系統需達到:2N或M(N+1) 冗餘 (M=2,3, 4……)的要求;
4、 其中,市電電源間、市電電源和柴油發電機間均可通過ATS(自動切換開關)進行切換,電源列頭櫃用來進行電源分配和供電管理,以提高供電系統的易管理性。
金融行業在供電方面除了需要滿足以上要求外,還需滿足其他相關電力要求:
1、 市電中斷,發電機30秒自啟動;
2、 市電電源為10KV以上;
3、 空調設備採用雙路電源供電;
4、 不間斷電源電池單機容量備用時間大於等於15分鍾;
5、 要求採用專用配電箱(櫃),專用配電箱(櫃)應靠近用電設備安裝;
6、 用於電子信息系統機房內的動力設備與電子信息設備的不間斷電源系統應由不同迴路配電;
7、 自動轉換開關檢修時,不應影響電源的切換。
雲計算與存儲是未來商業的發展趨勢,無論是互聯網界還是傳統企業通過搭建數據中心可以更好的掌握用戶數據,為用戶提供可靠的定製服務。從用戶的角度來講,企業搭建數據中心也是用戶的選擇。
(註:本文特約上海十佳IDC服務商之一的有孚網路(共承擔了6項國家及地市級專項課題),將雲計算數據中心的最佳實踐與眾多相關從業者分享。上海有孚網路股份有限公司創立於2001年,擁有超過15年的IDC運營管理經驗,並形成了一套完整的自有雲計算數據中心體系,為成千上萬家客戶提供專業的產品與服務。)
B. 如何搭建大數據分析平台
一般的大數據平台從平台搭建到數據分析大概包括以下幾個步驟:C. 如何創建一個大數據平台
所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。
我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。
D. 在大數據中心需要什麼樣的技術
大數據是對坦叢海量數據進行存儲、計算、統計、分析處理的一系列處理手段,處理的數據量通常是TB級,甚至是PB或EB級的數據,這是傳統數據手段所無法完成的,其涉及的技術有分布式計算、高並發處理、高可用處理、集群、實時性計算等,匯集了當前IT領域熱門流行的IT技術。1. Java編程技術
Java編程技術是大數據學習的基礎,Java是一種強類型的語言,擁有極高的跨平台能力,可以編寫桌面應用程序、Web應用程序、分布式系統和嵌入式系統應用程序等,是大數據工程師最喜歡的編程工具,因此,想學好大數據,掌握Java基礎是必不可少的。
2. Linux命令
對於大數據開發通常是在Linux環境下進行的,相比Linux操作系統,Windows操作系統是封閉的操作系統,開源的大數據軟體很受限制,因此,想從事大數據開發相關工作,還需掌握Linux基礎操作命令。
3. Hadoop
Hadoop是大數據開發的重要框架,其核心是HDFS和MapRece,HDFS為海量的數據提供了存儲,MapRece為海量的數據提供了計算,因此,需要重點掌握,除此之外,還需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高級管理等相關技耐前術與操作!
4. Hive
Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapRece任務運行,十分適合數據倉庫的統計分析。對於Hive需掌握其安裝、應用及高級操作等。
5. Avro與Protobuf
Avro與Protobuf均是數據序列化系統,可以提供豐富的數據結構類型,十分適合做數據存儲,還可進行不同語言之間相互通信的數據交換格式,學習大數據,需掌握其具體用法。
6. ZooKeeper
ZooKeeper是Hadoop和Habase的重要組件,是一個分布式應用提供一致性服務的軟體,提供的功能包括:配置維護、域名服務、分布式同步、組件服務等,在大數據開發中要掌握ZooKeeper的常用命令及功能的實現方法。7. HBase
HBase是一個分布式的、面向列的開源資料庫,他不同於一般的關系資料庫,更適合於非結構化數據存儲的資料庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,大數據開發需掌握HBase基礎知識、應用、架構以及高級用法等。
8.phoenix
Phoenix是用Java編寫的基於JDBC API操作HBase的開源SQL引擎,其具有動態列、散列載入、查詢伺服器、追蹤、事務、用戶自定義函數、二級索引、命名空間映射、數據收集、行時間戳列、分頁查詢、跳躍查詢、視圖以及多租戶的特性,大數據開發需掌握其原理和使用方法。
9.Redis
Redis是一個key-value存儲系統,其出現很大程度補償了memcached這類key/value存儲的不足,在部分場合可以對關系資料庫昌信清起到很好的補充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客戶端,使用很方便,大數據開發需掌握Redis的安裝、配置及相關使用方法。
10.Flume
Flume是一款高可用、高可靠、分布式的海量日誌採集、聚合和傳輸系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接收方(可定製)的能力。大數據開發需掌握其安裝、配置以及相關使用方法。
11.SSM
SSM框架是由Spring、SpringMVC、MyBatis三個開源框架整合而成,常作為數據源較簡單的web項目的框架。大數據開發需分別掌握Spring、SpringMVC、MyBatis三種框架的同時,再使用SSM進行整合操作。
12.Kafka
Kafka是一種高吞吐量的分布式發布訂閱消息系統,其在大數據開發應用上的目的是通過Hadoop的並行載入機制來統一線上和離線的消息處理,也是為了通過集群來提供實時的消息。大數據開發需掌握Kafka架構原理及各組件的作用和是用方法及相關功能的實現!
13.Scala
Scala是一門多範式的編程語言,大數據開發重要框架Spark是採用Scala語言設計的,想要學好Spark框架,擁有Scala基礎是必不可少的,因此,大數據開發需掌握Scala編程基礎知識!
14.Spark
Spark是專為大規模數據處理而設計的快速通用的計算引擎,其提供了一個全面、統一的框架用於管理各種不同性質的數據集和數據源的大數據處理的需求,大數據開發需掌握Spark基礎、SparkJob、Spark RDD、sparkjob部署與資源分配、SparkshuffleSpark內存管理、Spark廣播變數、SparkSQL SparkStreaming以及 Spark ML等相關知識。
15.Azkaban
Azkaban是一個批量工作流任務調度器,可用於在一個工作流內以一個特定的順序運行一組工作和流程,可以利用Azkaban來完成大數據的任務調度,大數據開發需掌握Azkaban的相關配置及語法規則。
E. 企業如何建立大數據部門
企業如何建立大數據部門
企業如何建立大數據部門,很多公司老闆想組建一個大數據團隊,我們需要對於未來數據中心的人員安排如何,怎麼樣工資體系比較合適的?」反過來,有很多剛畢業的大學同學也在問我,「我這個專業需要撐握那些技術才能被企業看上。」當然也有,工作三年以上的小夥伴問我,未來自己的職業規化是怎麼樣的,這個我以後再跟大家一起來探討。
現在大數據很熱,很多大型互聯網公司對於數據部門配製都可以跟財務系統的人員相當了,也有很多初創企業拿到融資的移動互聯網企業,在運營穩定的情況下,已經開始對於大數據分析團隊開始進行配置,市場上能稱的上數據分析師的人才差不多在10萬左右,未來預計在1000萬左右規模會跟數據分析相關人員需求,而大學對於大數據分析這塊專業的缺失,根本來說沒有辦法能承擔一個數據分析師的角色,所以這塊數據分析師的需求會強烈,待遇會高。有同學擔心數據分析師是否未來人工智慧的發展起來,會出現失業的情況,這個相信擔心是多的,因為商業的決策,從來都是人的事,即使未來技術的進步,也不可能會讓機器來代替人的決定。
數據分析師是企業不僅是數據分析工人其實也是數據分析體系的設計師,開始時企業會有很多一些臨時的需求,比如市場部需要數據分析提一些數據做一些表格,這樣很容易會產生很多的表哥表妹的問題,覺得自已的意義不是很大,但是在我看來一個好的數據分析師,他應該是半個市場運行人員有著很好的溝通能力,80%的工作量是業務與市場部門提出的需求,在精通企業業務邏輯運作前提下再結合數據中出現的問題給於業務提出合理的建議,當然現在可能更多的是事後評估與監控的作用。
對於初級數據分析師,如果這個小夥子對於基本的統計模型與數據提供,特別SQL與EXCEL能過關,這個人差不多能用了,但是關鍵點就是這個侯選人是否有著很好的邏輯能力與溝通能力,如果是內向型的,其實未來做起來會很難,因為數據分析師的技術的門檻不高,但是否能對於業務敏感,對於數據敏感,及是否能把分析出來的東西在業務方進行落地,這就是數據分析師的價值。中級數據分析師需要三年以上,就需要他能對於業務進行建模那麼就需要他對於一些基本模型熟悉及對於統計軟體熟悉,當然如果能走的更遠的小夥伴需要能對於自已設計模型能力,怎麼進入數據指導業務的階段。
對於數據部門人員的設計時,最好是把數據分析人員分別跟各個業務線進行對接,最忌諱數據倉庫人員與業務部門對接,這樣很容易使數據部門流於形式,主要的原因數據倉庫人員沒有對於業務方提供需求進行分析,因為有時業務部門在需要數據分析都不知道自已要什麼,所以很容易對於數據團隊產生很負面的影響。因為數據中心說開了,畢竟是一個服務部門很難直接產生價值,所以需要跟業務與市場人員進行密切的協作才能產生價值,最怕就是數據中心自已在做產品,結果很辛苦卻沒有產出。那麼數據中心的團隊的負責人,是數據分析人員還是數據倉庫人員出身的,從我這邊長期的觀察來看,如果是中小型的企業,最好是商務智能出身的比較好一些,主要的原因能滿足初級對於數據分析系統,未來也會對於數據分析有一個不錯的了解,如果企業技術開發能力不錯,最好是數據分析出身,對於實現數據產生價值,有著很深遠的影響。
F. 建設全國一體化大數據中心對數字經濟發展至關重要,你認為具體應該怎麼做
建設全國一體化大數據中心對數字經濟發展至關重要,認為具體應該築牢數字經濟健康發展底座。
構建國家一體化大數據中心體系有四個方面的重要作用:
一是有利於推動數字經濟健康發展。大數據中心體系不僅是數字設備的託管空間體,更是大數據、雲計算等數字技術的科技承載體,是數字技術自主創新所必需的算力底座。據中國信通院測算,2016年~2020年,我國算力規模平均每增長一個百分點,帶動數字經濟增長0.4個百分點、GDP增長0.2個百分點。可以說,算力「地基」夯實與否,關繫到數字經濟這座「大廈」能否巍然屹立。
二是有利於加快數據要素市場化改革。一體化大數據中心體系建設能夠推動構建國家數據資源體系,提升信息資源國家控制力,打造我國在全球數字經貿中數據資源配置的能力優勢;能夠健全數據治理和流通體系,深化數據要素市場化配置改革,推動數據融合開放,加快釋放數據價值。
三是有利於推動「雙碳」戰略實施。一體化大數據中心體系不僅明確提出PUE和綠電佔比等碳減排指標演進要求,更藉助數據中心集群化、「東數西算」等建設路徑,重點推動算力基礎設施能效優化以及與綠色能源的融合發展,構建低碳綠色的高質量算力服務體系,並進一步釋放體系建設給全社會經濟轉型帶來的綠色價值。
四是有利於加快數據中心產業的轉型發展。一體化大數據中心體系一方面能夠驅動數據中心集約化、綠色化、均衡化發展,另一方面構建了含數據中心、網路、雲、AI、安全等多個要素的基礎設施體系,是傳統數據中心的升級版,是新基建的發展典範。
G. 大數據中心建設需要具備哪些條件
您好!大數據中心是近幾年才發展起來的,僅2011年到2013年上半年全國共規劃建設數據中心255個,已投入使用173個,總用地約713.2萬平方米,總機房面積約400萬平方米。數據中心建設條件主要包括以下方面:
一、能源供應:數據中心三分之一以上的預算將是環境成本。數據中心約60%的資產支出和50%的運營成本都與能源有關。在確保高性能的同時,將冷卻散熱降至最低是雲數據中心實現「綠色」所必須要做的,這就要求更科學、更合理的供電方式和製冷系統的配置。
二、氣候因素:雖然氣溫、台風、洪水、乾旱等自然氣候因素都是雲數據中心布局的影響因素,但溫度條件是需要重點考慮的氣候因素。所在地的常年平均氣溫是影響雲數據中心能耗的決定性因素之一,甚至是決定PUE高低的重要因素。
三、地質條件:地殼穩定,發生地質災害的可能性小,為數據中心的階段內的穩定運營提供保證。
目前我國數據中心產業雖然已經開始呈現出向規模化、集中化、綠色化、布局合理化發展的趨勢,也涌現出一些成功的案例。比如鄂爾多斯大數據中心,該數據中心機房嚴格按照國際領先的行業設計標准,集IDC設計理念和綠色節能技術於一體,與世界一流IDC保持同步,能夠為全社會提供同等級服務的數據中心。
H. 大數據平台是什麼什麼時候需要大數據平台如何建立大數據平台
首先我們要了解Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據基礎。
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。