① 大數據處理軟體用什麼比較好
常見的數據處理軟體有Apache Hive、SPSS、Excel、Apache Spark、Jaspersoft BI 套件。
1、Apache Hive
Hive是一個建立在Hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。 Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
數據分析與處理方法:
採集
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。
並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的大量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等。
而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些大量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。
也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
② 常用的資料庫軟體哪個好
這個要看你的項目應用場景的,也與自身所使用的開發語言密切相關。
開發語言
假如你是基於.net平台開發的項目,最好的資料庫當然是微軟自己家的,大型資料庫可以用SQLServer,小的資料庫用Access。
假如用的是php開發,二話不說必須用MySQL,天生自然配。
開發成虛嫌本
選擇資料庫時,還要考慮開發成本。比如,php的最佳搭檔是MySQL,如果改用其它庫,就是自找麻煩,開發起來耗費的人工和時間成本可不低。
我之前曾做過一個php的小項目,還是帶中文欄位的,如果用mysql很簡單,即使是中文,只要在連接之後設置一下編碼就沒問題了,各種select返回數據正常。可改用access之後,由於差灶手同樣存在的中文編碼問題,不僅連接時要轉辯戚碼,後期使用select時也要轉碼,麻煩了很多很多。
以下是獲取結果集的代碼,因為表名和欄位名都是中文的,好一頓折騰:
資料庫成本
資料庫有的是免費的(比如MySQL),有的是收費的,而且費用還不低(比如SQLServer),這也是考慮的重要因素之一。