1. 數據挖掘就業方向是什麼
數據挖掘就業的途徑有以下幾種,A:做科研(在高校、科研單位以及大型企業,主要研究演算法、應用等);B:做程序開發設計(在企業做數據挖掘及其相關程序演算法的實現等);C:數據分析師(在存在海量數據的企事業單位做咨詢、分析等)。
現在各個公司對於數據挖掘崗位的技能要求偏應用多一些。目前市面上的崗位一般分為演算法模型、數據挖掘、數據分析三種。應用及就業領域:當前數據挖掘應用主要集中在電信(客戶分析),零售(銷售預測),農業(行業數據預測),網路日誌(網頁定製),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫葯等方面。
如果對數據挖掘的學習有疑問的話,推薦CDA數據分析師的課程,課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,能夠遇到問題解決問題點擊預約免費試聽課。
2. 現在數據挖掘的前沿方向是什麼呢
8.1 數據挖掘未來研究方向
----當前,DMKD研究方興未艾,其研究與開發的總體水平相當於資料庫技術在70年代所處的地位,迫切需要類似於關系模式、DBMS系統和SQL查詢語言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。預計在本世紀,DMKD的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
發現語言的形式化描述,即研究專門用於知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標准化;
尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用戶理解,也便於在知識發現的過程中進行人機交互;
研究在網路環境下的數據挖掘技術(WebMining),特別是在網際網路上建立DMKD伺服器,並且與資料庫伺服器配合,實現WebMining;
加強對各種非結構化數據的開采(DataMiningforAudio&Video),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采;
處理的數據將會涉及到更多的數據類型,這些數據類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數據,就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數據所做的費時和復雜數據准備的一些工具和軟體。
互動式發現;
知識的維護更新。
但是,不管怎樣,需求牽引與市場推動是永恆的,DMKD將首先滿足信息時代用戶的急需,大量的基於DMKD的決策支持軟體產品將會問世。
只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,數據才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。
8.2 數據挖掘熱點
就目前來看,將來的幾個熱點包括網站的數據挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的數據挖掘及其文本的數據挖掘(Textual mining)。下面就這幾個方面加以簡單介紹。
8.2.1 網站的數據挖掘(Web site data mining)
需求
隨著Web技術的發展,各類電子商務網站風起雲涌,建立起一個電子商務網站並不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下滑鼠即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足於不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。
電子商務網站數據挖掘
在對網站進行數據挖掘時,所需要的數據主要來自於兩個方面:一方面是客戶的背景信息,此部分信息主要來自於客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用於考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。
就分析和建立模型的技術和演算法而言,網站的數據挖掘和原來的數據挖掘差別並不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自於點擊流,和傳統的資料庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據准備。目前,有很多廠商正在致力於開發專門用於網站挖掘的軟體。
8.2.2 生物信息或基因的數據挖掘
生物信息或基因數據挖掘則完全屬於另外一個領域,在商業上很難講有多大的價值,但對於人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。
對於生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的演算法而言,都要復雜得多。從分析演算法上講,更需要一些新的和好的演算法。現在很多廠商正在致力於這方面的研究。但就技術和軟體而言,還遠沒有達到成熟的地步。
8.2.3 文本的數據挖掘(Textualmining)
人們很關心的另外一個話題是文本數據挖掘。舉個例子,在客戶服務中心,把同客戶的談話轉化為文本數據,再對這些數據進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。從這個例子可以看出,無論是在數據結構還是在分析處理方法方面,文本數據挖掘和前面談到的數據挖掘相差很大。文本數據挖掘並不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場上有一些類似的軟體,但大部分方法只是把文本移來移去,或簡單地計算一下某些詞彙的出現頻率,並沒有真正的分析功能。
隨著計算機計算能力的發展和業務復雜性的提高,數據的類型會越來越多、越來越復雜,數據挖掘將發揮出越來越大的作用。
3. 數據分析的方向都有哪些
數據分析有:分類分析,矩陣分析,漏斗分析,相關分析,邏輯樹分析,趨勢分析,行為軌跡分析,等等。 我用HR的工作來舉例,說明上面這些分析要怎麼做,才能得出洞見。
01) 分類分析
比如分成不同部門、不同崗位層級、不同年齡段,來分析人才流失率。比如發現某個部門流失率特別高,那麼就可以去分析。
02) 矩陣分析
比如公司有價值觀和能力的考核,那麼可以把考核結果做出矩陣圖,能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例,從而發現公司的人才健康度。
03) 漏斗分析
比如記錄招聘數據,投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期,這就是一個完整的招聘漏斗,從數據中,可以看到哪個環節還可以優化。
04) 相關分析
比如公司各個分店的人才流失率差異較大,那麼可以把各個分店的員工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等)要素進行相關性分析,找到最能夠挽留員工的關鍵因素。
05) 邏輯樹分析
比如近期發現員工的滿意度有所降低,那麼就進行拆解,滿意度跟薪酬、福利、職業發展、工作氛圍有關,然後薪酬分為基本薪資和獎金,這樣層層拆解,找出滿意度各個影響因素裡面的變化因素,從而得出洞見。
06) 趨勢分析
比如人才流失率過去12個月的變化趨勢。
07)行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡,從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。
4. 可以說明一下數據挖掘和數據分析的工作方向嗎
普通的數據分析師、數據挖掘工程師 = SQL工程師 + Excel工程師 + 統計學。
高端的 = 數據 + 業務 + 解決方案。
一般來說數據分析師產出的是分析報告、業務參謀建議,數據挖掘工程師產出的是有業務價值的數據。但是其實實際上,這兩者的工作內容很難割裂開,因為要想做出有價值的分析報告、業務建議,必須深挖各個維度的數據。而想給出有價值的數據交付物,也必然要准備大量說明這個數據為什麼有價值以及是如何產出的的報告、文檔。所以最多就是說分析崗稍微偏業務一點,挖掘崗稍微偏數據一點。
想要學習了解更多數據挖掘的信息,推薦CDA數據分析師課程。CDA課程以項目調動學員數據挖掘實用能力的場景式教學為主,在設計的業務場景下提出業務問題,學員循序漸進思考並操作解決問題的過程中,掌握真正過硬的解決業務問題的數據挖掘能力。點擊預約免費試聽課。
5. 數據挖掘的相關學科有哪些
數據挖掘涉及的學科:統計學、資料庫系統、數據倉庫、信息檢索、機器學習、應用、模式識別、可視化、演算法、高性能計算、數理統計、機器學習、高性能計算、模式識別、神經網路、數據可視化、信息檢索、圖像與信號處理、空間數據分析等。
數據挖掘是一個比較傳統的研究方向,是從大量的、隨機的、不完全的、有雜訊的、模糊的數據中,提取隱含在其中、人們事先不知道又潛在有用信息和知識的過程。數據挖掘需要根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、規則推理、決策樹、模糊集、甚至神經網路、遺傳演算法的方法處理信息,得出有用的分析信息。數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期的目標,都需要回到前面的步驟,重新調整並執行。數據挖掘需要綜合運用計算機、數學以及統計學的相關知識。在大數據時代,數據挖掘被賦予了更豐富的含義,研究范圍也有了相應的拓展。
想更多了解數據挖掘相關的學科,推薦上CDA數據分析師的課程。課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。真正理解商業思維,項目思維,能夠遇到問題解決問題。點擊預約免費試聽課。
6. 數據挖掘方面還有什麼研究方向嗎
數據挖掘領域主要包括以下方面:基礎理論研究(規則和模式挖掘、分類、聚類、話題學習、時間空間數據挖掘、機器學習方法,監督、非監督、半監督等)、社交網路分析和大規模圖挖掘(圖模式挖掘、社區發現、網路聚類系數估計、網路關系挖掘、網路用戶行為分析、網路信息傳播、社交網路應用,社交推薦(信息、好友等))、大數據挖掘(演算法的並行、分布式擴展、多源異構數據融合挖掘等)。數據挖掘應用(醫療、教育、金融等)。研究熱點是大數據挖掘、社交網路和大規模圖挖掘。
下面,在說一下什麼是大數據挖掘,它跟傳統的方法其本質區別是什麼?大數據挖掘可以分為三點:演算法的擴展、分布式框架開發、多源數據融合分析。通過閱讀KDD』13,KDD』14,幾篇KDD』15的big data session中的文章,幾乎百分之百的文章都提到了演算法的scalability。由此可見,現今大數據挖掘與傳統演算法的本質區別在於演算法的可擴展性。換句話說,現在研究的演算法在不僅僅能處理小規模數據集,當數據增加時也具有較大范圍內的適合。演算法的擴展,我理解為兩個方面:scale out-縱向擴展以及scale up-橫向擴展。縱向擴展最要在演算法底層、良好的數據結構設計或者並行設計方面。橫向擴展主要指演算法的分布式技術實現(自己編寫分布式演算法或者基於現有分布式框架實現)。這里所說的「大數據」,在不同的挖掘領域(文本、圖結構、機器學習、圖像)所對應的數據量是不同的。對文本來說,幾百萬個樣本可能就是「大數據」;對機器學習來說,千萬個樣本,幾十維、幾百維(MB/GB)就是「大數據」;對大規模圖挖掘來說,千萬級節點、億級邊(GB),也是「大數據」;對圖像數據,百萬級圖像(TB)完全可以稱得上「大數據」。那麼,要做演算法的可擴展性是不是必須用到並行技術、分布式編程技術?答案是一般需要,但並不絕對。演算法如果做到了極致,單台計算機也能處理「大數據」問題,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章僅僅在一台計算機上利用線程並行(多核)實現了計算機集群完成的工作。有些文章是用MATLAB來完成的實驗(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群來完成實驗、有些是利用C/JAVA語言編寫分布式程序實現、有些是利用多核CPU的多線程並行實現。可見,演算法的實現方式不重要,重要的是演算法具有scalability。多源數據融合以及挖掘分析也可以稱得上大數據挖掘,可能不見得數據集有非常大,但是通過多種數據的融合發現了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了兩個異構數據集(text、image)進行relation-aware分析。特別是微軟亞洲研究院在KDD』13 上的U-Air: When Urban Air Quality Inference Meets Big Data,這篇文章就是融合了5個數據集(氣象數據、空氣質量數據、POI數據、路網數據、軌跡數據),利用傳統的數據挖掘方法進行了融合分析,得到了較好的效果並進行了商業應用。附註:個人認為演算法也應該考慮擴展性,在面臨數據集增加時,看看是否還會能達到高效地預測結果。
總結:在大數據研究中,更多的是偏理論演算法的研究。可以這樣說,數據挖掘本身就是跟數據打交道,在特定情況下(數據集較大時或不斷增加時),數據挖掘的任何一個研究點都可能會遇到「大數據」問題。所以,真正需要做的是找准一個問題,利用傳統方法進行挖掘,並測試在大規模數據集下傳統演算法是否可行,如果不可行,提出演算法的改進版或者自己動手實現一個新的、具有可擴展性的演算法,這就是大數據研究的過程(也包括異構數據融合分析)。
7. 數據挖掘有什麼發展方向
數據倉庫日益普及。盡管數據挖掘並不一定要有數據倉庫的支持,但它仍然經常被看成數據倉庫的後期產品,因為那些努力建立數據倉庫的人有最豐富的數據資源可供挖掘。 Internet數據挖掘。許多供應商將數據挖掘技術用於電子商務,以提高Internet戰點和客戶的關聯行。如IBM公司發布Web為中心的數據挖掘解決方案SurAid。 EIS工具供應商也在集成數據挖掘功能。將數據挖掘工具和查詢及EIS工具集成起來將導致一個基於發現的過程,由此發現過程最終用戶能獲得最有用的東西,進而根據這些新的信息對有關問題進行更明確的闡述。 數據挖掘供應商更注重縱向市場。數據挖掘涉及到對數據內在本質的理解,因此供應商們更注重縱向市場。比如DataMind公司的重點是電信業的跳槽。電信業競爭的不規范和白熱化已使保持客戶成為一個備受關注的熱點問題。
8. 數據挖掘包括哪些方向
應該是有很多方向的吧,大體可以分類為
1. 計算機技術方面的方向,比如提高機器處理性能等。
2. 演算法方向,關於演算法的修正和提升等
3. 應用方向,比如商業中應用,政府中應用,製造業中應用等。
9. 學習數據挖掘以後就業方向是什麼
數據挖掘領域還是比較有前景的,主要有以下幾個方向:
1.做科研,可以在高校、科研單位以及各個企業從事數據挖掘科研人員;
2.做程序開發設計,可以在互聯網公司進行數據挖掘及其相關程序演算法;
3.數據分析師,在企事業單位做咨詢、分析等。
目前國內的數據挖掘人員工作領域大致可分為三類:
數據分析師:利用各項數據在電商、金融、電信、咨詢等行業里做業務咨詢。
數據挖掘工程師:在互聯網、多媒體、電商等大數據相關行業里做機器學習演算法實現和分析。
科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用。
關於數據挖掘的相關學習,推薦CDA數據師的相關課程,CDA數據分析師課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。真正理解商業思維,項目思維,能夠遇到問題解決問題;要求學生在使用演算法解決微觀根因分析、預測分析的問題上,根據業務場景來綜合判斷,洞察數據規律,使用正確的數據清洗與特徵工程方法,綜合使用統計分析方法、統計模型、運籌學、機器學習、文本挖掘演算法,而非單一的機器學習演算法。真正給企業提出可行性的價值方案和價值業務結果。點擊預約免費試聽課。
10. 數據挖掘領域比較有前景的方向有哪些
數據挖掘領域比較有前景的方向有哪些?數據挖掘就業的途徑從我看來有以下幾種,(注意:所說的數據挖掘不包括數據倉庫或資料庫管理員的角色)。A:做科研(在高校、科研單位以及大型企業,主要研究演算法、應用等)B:做程序開發設計(在企業做數據挖掘及其相關程序演算法的實現等)C:數據分析師(在存在海量數據的企事業單位做咨詢、分析等)目前國內的數據挖掘人員工作領域大致可分為三類:· 1)數據分析師:在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢,商務智能,出分析報告。· 2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業里做機器學習演算法實現和分析。· 3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用