⑴ 常見的大數據採集工具有哪些
1、離線搜集工具:ETL
在數據倉庫的語境下,ETL基本上便是數據搜集的代表,包括數據的提取(Extract)、轉換(Transform)和載入(Load)。在轉換的過程中,需求針對具體的事務場景對數據進行治理,例如進行不合法數據監測與過濾、格式轉換與數據規范化、數據替換、確保數據完整性等。
2、實時搜集工具:Flume/Kafka
實時搜集首要用在考慮流處理的事務場景,比方,用於記錄數據源的履行的各種操作活動,比方網路監控的流量辦理、金融運用的股票記賬和 web 伺服器記錄的用戶訪問行為。在流處理場景,數據搜集會成為Kafka的顧客,就像一個水壩一般將上游源源不斷的數據攔截住,然後依據事務場景做對應的處理(例如去重、去噪、中心核算等),之後再寫入到對應的數據存儲中。
3、互聯網搜集工具:Crawler, DPI等
Scribe是Facebook開發的數據(日誌)搜集體系。又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規矩,自動地抓取萬維網信息的程序或者腳本,它支持圖片、音頻、視頻等文件或附件的搜集。
除了網路中包含的內容之外,關於網路流量的搜集能夠運用DPI或DFI等帶寬辦理技術進行處理。
⑵ 常用的數據挖掘工具有哪些
1、
Weka
WEKA作為一個公開的數據挖掘工作平台,集合了大量能承擔數據挖掘任務的機器學習演算法,包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的互動式界面上的可視化。
2、
Rapid
Miner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
3、
Orange
Orange是一個基於組件的數據挖掘和機器學習軟體套裝,它的功能即友好,又很強大,快速而又多功能的可視化編程前端,以便瀏覽數據分析和可視化,基綁定了
Python以進行腳本開發。它包含了完整的一系列的組件以進行數據預處理,並提供了數據帳目,過渡,建模,模式評估和勘探的功能。其由C++
和
Python開發,它的圖形庫是由跨平台的Qt框架開發。
4、
Knime
KNIME
(Konstanz
Information
Miner)
是一個用戶友好,智能的,並有豐演的開源的數據集成,數據處理,數據分析和數據勘探平台。
5、
jHepWork
jHepWork是一套功能完整的面向對象科學數據分析框架。
Jython宏是用來展示一維和二維直方圖的數據。該程序包括許多工具,可以用來和二維三維的科學圖形進行互動。
6、
Apache
Mahout
Apache
Mahout
是
Apache
Software
Foundation
(ASF)
開發的一個全新的開源項目,其主要目標是創建一些可伸縮的機器學習演算法,供開發人員在
Apache
在許可下免費使用。該項目已經發展到了它的最二個年頭,目前只有一個公共發行版。Mahout
包含許多實現,包括集群、分類、CP
和進化程序。此外,通過使用
Apachehadoop庫,Mahout
可以有效地擴展到雲中。
7、
ELKI
ELKI(Environment
for
Developing
KDD-Applications
Supported
by
Index-Structures)主要用來聚類和找離群點。ELKI是類似於weka的數據挖掘平台,用java編寫,有GUI圖形界面。可以用來尋找離群點。
8、
Rattle
Rattle(易於學習的
R
分析工具)提供數據的統計和可視化摘要,將數據轉換成容易建模的形式,從數據中構建無監督和監督模型,以圖形方式呈現模型的性能,並得出新的數據集。
展開