導航:首頁 > 數據處理 > 大數據挖掘需要什麼研究方向

大數據挖掘需要什麼研究方向

發布時間:2023-08-17 11:17:54

㈠ 數據挖掘領域比較有前景的方向有哪些

數據挖掘領域比較有前景的方向有哪些?數據挖掘就業的途徑從我看來有以下幾種,(注意:所說的數據挖掘不包括數據倉庫或資料庫管理員的角色)。A:做科研(在高校、科研單位以及大型企業,主要研究演算法、應用等)B:做程序開發設計(在企業做數據挖掘及其相關程序演算法的實現等)C:數據分析師(在存在海量數據的企事業單位做咨詢、分析等)目前國內的數據挖掘人員工作領域大致可分為三類:· 1)數據分析師:在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢,商務智能,出分析報告。· 2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業里做機器學習演算法實現和分析。· 3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用

㈡ 現在數據挖掘的前沿方向是什麼呢

8.1 數據挖掘未來研究方向
----當前,DMKD研究方興未艾,其研究與開發的總體水平相當於資料庫技術在70年代所處的地位,迫切需要類似於關系模式、DBMS系統和SQL查詢語言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。預計在本世紀,DMKD的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
發現語言的形式化描述,即研究專門用於知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標准化;
尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用戶理解,也便於在知識發現的過程中進行人機交互;
研究在網路環境下的數據挖掘技術(WebMining),特別是在網際網路上建立DMKD伺服器,並且與資料庫伺服器配合,實現WebMining;
加強對各種非結構化數據的開采(DataMiningforAudio&Video),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采;
處理的數據將會涉及到更多的數據類型,這些數據類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數據,就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數據所做的費時和復雜數據准備的一些工具和軟體。
互動式發現;
知識的維護更新。
但是,不管怎樣,需求牽引與市場推動是永恆的,DMKD將首先滿足信息時代用戶的急需,大量的基於DMKD的決策支持軟體產品將會問世。
只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,數據才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。
8.2 數據挖掘熱點
就目前來看,將來的幾個熱點包括網站的數據挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的數據挖掘及其文本的數據挖掘(Textual mining)。下面就這幾個方面加以簡單介紹。
8.2.1 網站的數據挖掘(Web site data mining)
需求
隨著Web技術的發展,各類電子商務網站風起雲涌,建立起一個電子商務網站並不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下滑鼠即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足於不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。
電子商務網站數據挖掘
在對網站進行數據挖掘時,所需要的數據主要來自於兩個方面:一方面是客戶的背景信息,此部分信息主要來自於客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用於考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。
就分析和建立模型的技術和演算法而言,網站的數據挖掘和原來的數據挖掘差別並不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自於點擊流,和傳統的資料庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據准備。目前,有很多廠商正在致力於開發專門用於網站挖掘的軟體。
8.2.2 生物信息或基因的數據挖掘
生物信息或基因數據挖掘則完全屬於另外一個領域,在商業上很難講有多大的價值,但對於人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。
對於生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的演算法而言,都要復雜得多。從分析演算法上講,更需要一些新的和好的演算法。現在很多廠商正在致力於這方面的研究。但就技術和軟體而言,還遠沒有達到成熟的地步。
8.2.3 文本的數據挖掘(Textualmining)
人們很關心的另外一個話題是文本數據挖掘。舉個例子,在客戶服務中心,把同客戶的談話轉化為文本數據,再對這些數據進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。從這個例子可以看出,無論是在數據結構還是在分析處理方法方面,文本數據挖掘和前面談到的數據挖掘相差很大。文本數據挖掘並不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場上有一些類似的軟體,但大部分方法只是把文本移來移去,或簡單地計算一下某些詞彙的出現頻率,並沒有真正的分析功能。
隨著計算機計算能力的發展和業務復雜性的提高,數據的類型會越來越多、越來越復雜,數據挖掘將發揮出越來越大的作用。

㈢ 大數據分析有哪些基本方向

【導讀】跟著大數據時代的降臨,大數據剖析也應運而生。隨之而來的數據倉庫、數據安全、數據剖析、數據發掘等等環繞大數據的商業價值的使用逐漸成為職業人士爭相追捧的利潤焦點。那麼,大數據剖析有哪些根本方向呢?

1.可視化剖析

不管是對數據剖析專家仍是普通用戶,數據可視化是數據剖析東西最根本的要求。可視化能夠直觀的展現數據,讓數據自己說話,讓觀眾聽到成果。

2.數據發掘演算法

可視化是給人看的,數據發掘便是給機器看的。集群、切割、孤立點剖析還有其他的演算法讓咱們深入數據內部,發掘價值。這些演算法不只要處理大數據的量,也要處理大數據的速度。

3.猜測性剖析才能

數據發掘能夠讓剖析員更好的理解數據,而猜測性剖析能夠讓剖析員根據可視化剖析和數據發掘的成果做出一些猜測性的判別。

4.語義引擎

咱們知道由於非結構化數據的多樣性帶來了數據剖析的新的應戰,咱們需求一系列的東西去解析,提取,剖析數據。語義引擎需求被設計成能夠從「文檔」中智能提取信息。

5.數據質量和數據管理

數據質量和數據管理是一些管理方面的最佳實踐。經過標准化的流程和東西對數據進行處理能夠保證一個預先界說好的高質量的剖析成果。

6.數據存儲,數據倉庫

數據倉庫是為了便於多維剖析和多角度展現數據按特定形式進行存儲所建立起來的聯系型資料庫。在商業智能系統的設計中,數據倉庫的構建是關鍵,是商業智能系統的根底,為商業智能系統供給數據抽取、轉換和載入(ETL),並按主題對數據進行查詢和拜訪,為聯機數據剖析和數據發掘供給數據平台。

以上就是小編今天給大家整理分享關於「大數據分析有哪些基本方向?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹,需要考取部分含金量高的數據分析師證書,這樣更有核心競爭力與競爭資本。

㈣ 數據挖掘方面還有什麼研究方向嗎

數據挖掘領域主要包括以下方面:基礎理論研究(規則和模式挖掘、分類、聚類、話題學習、時間空間數據挖掘、機器學習方法,監督、非監督、半監督等)、社交網路分析和大規模圖挖掘(圖模式挖掘、社區發現、網路聚類系數估計、網路關系挖掘、網路用戶行為分析、網路信息傳播、社交網路應用,社交推薦(信息、好友等))、大數據挖掘(演算法的並行、分布式擴展、多源異構數據融合挖掘等)。數據挖掘應用(醫療、教育、金融等)。研究熱點是大數據挖掘、社交網路和大規模圖挖掘。
下面,在說一下什麼是大數據挖掘,它跟傳統的方法其本質區別是什麼?大數據挖掘可以分為三點:演算法的擴展、分布式框架開發、多源數據融合分析。通過閱讀KDD』13,KDD』14,幾篇KDD』15的big data session中的文章,幾乎百分之百的文章都提到了演算法的scalability。由此可見,現今大數據挖掘與傳統演算法的本質區別在於演算法的可擴展性。換句話說,現在研究的演算法在不僅僅能處理小規模數據集,當數據增加時也具有較大范圍內的適合。演算法的擴展,我理解為兩個方面:scale out-縱向擴展以及scale up-橫向擴展。縱向擴展最要在演算法底層、良好的數據結構設計或者並行設計方面。橫向擴展主要指演算法的分布式技術實現(自己編寫分布式演算法或者基於現有分布式框架實現)。這里所說的「大數據」,在不同的挖掘領域(文本、圖結構、機器學習、圖像)所對應的數據量是不同的。對文本來說,幾百萬個樣本可能就是「大數據」;對機器學習來說,千萬個樣本,幾十維、幾百維(MB/GB)就是「大數據」;對大規模圖挖掘來說,千萬級節點、億級邊(GB),也是「大數據」;對圖像數據,百萬級圖像(TB)完全可以稱得上「大數據」。那麼,要做演算法的可擴展性是不是必須用到並行技術、分布式編程技術?答案是一般需要,但並不絕對。演算法如果做到了極致,單台計算機也能處理「大數據」問題,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章僅僅在一台計算機上利用線程並行(多核)實現了計算機集群完成的工作。有些文章是用MATLAB來完成的實驗(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群來完成實驗、有些是利用C/JAVA語言編寫分布式程序實現、有些是利用多核CPU的多線程並行實現。可見,演算法的實現方式不重要,重要的是演算法具有scalability。多源數據融合以及挖掘分析也可以稱得上大數據挖掘,可能不見得數據集有非常大,但是通過多種數據的融合發現了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了兩個異構數據集(text、image)進行relation-aware分析。特別是微軟亞洲研究院在KDD』13 上的U-Air: When Urban Air Quality Inference Meets Big Data,這篇文章就是融合了5個數據集(氣象數據、空氣質量數據、POI數據、路網數據、軌跡數據),利用傳統的數據挖掘方法進行了融合分析,得到了較好的效果並進行了商業應用。附註:個人認為演算法也應該考慮擴展性,在面臨數據集增加時,看看是否還會能達到高效地預測結果。
總結:在大數據研究中,更多的是偏理論演算法的研究。可以這樣說,數據挖掘本身就是跟數據打交道,在特定情況下(數據集較大時或不斷增加時),數據挖掘的任何一個研究點都可能會遇到「大數據」問題。所以,真正需要做的是找准一個問題,利用傳統方法進行挖掘,並測試在大規模數據集下傳統演算法是否可行,如果不可行,提出演算法的改進版或者自己動手實現一個新的、具有可擴展性的演算法,這就是大數據研究的過程(也包括異構數據融合分析)。

閱讀全文

與大數據挖掘需要什麼研究方向相關的資料

熱點內容
四川南充有哪些水果批發市場 瀏覽:375
從市場買回來海帶怎麼清洗 瀏覽:394
程序員一般精通多少門 瀏覽:930
技術轉做銷售怎麼樣 瀏覽:376
為什麼警察會抓捕犯罪人信息 瀏覽:560
otg數據線用什麼手機 瀏覽:188
重慶生發產品有哪些 瀏覽:127
代理是怎麼做到的 瀏覽:786
法院執行劃扣程序多久到賬 瀏覽:97
什麼樣的產品適合孕婦 瀏覽:286
線上哪些平台可以賣產品 瀏覽:997
軸承工程師產品有哪些 瀏覽:26
二手老車交易費用有哪些 瀏覽:562
成都葡萄酒代理多少錢 瀏覽:812
產品檢驗叫什麼工種 瀏覽:68
想開美容店做什麼產品 瀏覽:32
產品本質怎麼運營 瀏覽:380
百度地圖如何添加酒店信息 瀏覽:405
數據分析哪些誤區 瀏覽:376
網管和內部信息化哪個部門好 瀏覽:661