『壹』 大數據研究常用軟體工具與應用場景
大數據研究常用軟體工具與應用場景
如今,大數據日益成為研究行業的重要研究目標。面對其高數據量、多維度與異構化的特點,以及分析方法思路的擴展,傳統統計工具已經難以應對。
工欲善其事,必先利其器。眾多新的軟體分析工具作為深入大數據洞察研究的重要助力, 也成為數據科學家所必須掌握的知識技能。
然而,現實情況的復雜性決定了並不存在解決一切問題的終極工具。實際研究過程中,需要根據實際情況靈活選擇最合適的工具(甚至多種工具組合使用),才能更好的完成研究探索。
為此,本文針對研究人員(非技術人員)的實際情況,介紹當前大數據研究涉及的一些主要工具軟體(因為相關軟體眾多,只介紹常用的),並進一步闡述其應用特點和適合的場景,以便於研究人員能有的放矢的學習和使用。
基礎篇傳統分析/商業統計
Excel、SPSS、SAS 這三者對於研究人員而言並不陌生。
Excel 作為電子表格軟體,適合簡單統計(分組/求和等)需求,由於其方便好用,功能也能滿足很多場景需要,所以實際成為研究人員最常用的軟體工具。其缺點在於功能單一,且可處理數據規模小(這一點讓很多研究人員尤為頭疼)。這兩年Excel在大數據方面(如地理可視化和網路關系分析)上也作出了一些增強,但應用能力有限。
SPSS(SPSS Statistics)和SAS作為商業統計軟體,提供研究常用的經典統計分析(如回歸、方差、因子、多變數分析等)處理。
SPSS 輕量、易於使用,但功能相對較少,適合常規基本統計分析
SAS 功能豐富而強大(包括繪圖能力),且支持編程擴展其分析能力,適合復雜與高要求的統計性分析。
上述三個軟體在面對大數據環境出現了各種不適,具體不再贅述。但這並不代表其沒有使用價值。如果使用傳統研究方法論分析大數據時,海量原始數據資源經過前期處理(如降維和統計匯總等)得到的中間研究結果,就很適合使用它們進行進一步研究。
數據挖掘
數據挖掘作為大數據應用的重要領域,在傳統統計分析基礎上,更強調提供機器學習的方法,關注高維空間下復雜數據關聯關系和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身為Clementine)
SPSS Modeler 的統計功能相對有限, 主要是提供面向商業挖掘的機器學習演算法(決策樹、神經元網路、分類、聚類和預測等)的實現。同時,其數據預處理和結果輔助分析方面也相當方便,這一點尤其適合商業環境下的快速挖掘。不過就處理能力而言,實際感覺難以應對億級以上的數據規模。
另一個商業軟體 Matlab 也能提供大量數據挖掘的演算法,但其特性更關注科學與工程計算領域。而著名的開源數據挖掘軟體Weka,功能較少,且數據預處理和結果分析也比較麻煩,更適合學術界或有數據預處理能力的使用者。
中級篇1、通用大數據可視化分析
近兩年來出現了許多面向大數據、具備可視化能力的分析工具,在商業研究領域,TableAU無疑是卓越代表。
TableAU 的優勢主要在於支持多種大數據源/格式,眾多的可視化圖表類型,加上拖拽式的使用方式,上手快,非常適合研究員使用,能夠涵蓋大部分分析研究的場景。不過要注意,其並不能提供經典統計和機器學習演算法支持, 因此其可以替代Excel, 但不能代替統計和數據挖掘軟體。另外,就實際處理速度而言,感覺面對較大數據(實例超過3000萬記錄)時,並沒有官方介紹的那麼迅速。
2 、關系分析
關系分析是大數據環境下的一個新的分析熱點(比如信息傳播圖、社交關系網等),其本質計算的是點之間的關聯關系。相關工具中,適合數據研究人員的是一些可視化的輕量桌面型工具,最常用的是Gephi。
Gephi 是免費軟體,擅長解決圖網路分析的很多需求,其插件眾多,功能強且易用。我們經常看到的各種社交關系/傳播譜圖, 很多都是基於其力導向圖(Force directed graph)功能生成。但由於其由java編寫,限制了處理性能(感覺處理超過10萬節點/邊時常陷入假死),如分析百萬級節點(如微博熱點傳播路徑)關系時,需先做平滑和剪枝處理。 而要處理更大規模(如億級以上)的關系網路(如社交網路關系)數據,則需要專門的圖關系資料庫(如GraphLab/GraphX)來支撐了,其技術要求較高,此處不再介紹。
3、時空數據分析
當前很多軟體(包括TableAU)都提供了時空數據的可視化分析功能。但就使用感受來看,其大都只適合較小規模(萬級)的可視化展示分析,很少支持不同粒度的快速聚合探索。
如果要分析千萬級以上的時空數據,比如新浪微博上億用戶發文的時間與地理分布(從省到街道多級粒度的探索)時,推薦使用 NanoCubes(http://www.nanocubes.net/)。該開源軟體可在日常的辦公電腦上提供對億級時空數據的快速展示和多級實時鑽取探索分析。下圖是對芝加哥犯罪時間地點的分析,網站有更多的實時分析的演示例子
4、文本/非結構化分析
基於自然語言處理(NLP)的文本分析,在非結構化內容(如互聯網/社交媒體/電商評論)大數據的分析方面(甚至調研開放題結果分析)有重要用途。其應用處理涉及分詞、特徵抽取、情感分析、多主題模型等眾多內容。
由於實現難度與領域差異,當前市面上只有一些開源函數包或者雲API(如BosonNLP)提供一些基礎處理功能,尚未看到適合商業研究分析中文文本的集成化工具軟體(如果有誰知道煩請通知我)。在這種情況下,各商業公司(如HCR)主要依靠內部技術實力自主研發適合業務所需的分析功能。
高級篇前面介紹的各種大數據分析工具,可應對的數據都在億級以下,也以結構化數據為主。當實際面臨以下要求: 億級以上/半實時性處理/非標准化復雜需求 ,通常就需要藉助編程(甚至藉助於Hadoop/Spark等分布式計算框架)來完成相關的分析。 如果能掌握相關的編程語言能力,那研究員的分析能力將如虎添翼。
當前適合大數據處理的編程語言,包括:
R語言——最適合統計研究背景的人員學習,具有豐富的統計分析功能庫以及可視化繪圖函數可以直接調用。通過Hadoop-R更可支持處理百億級別的數據。 相比SAS,其計算能力更強,可解決更復雜更大數據規模的問題。
Python語言——最大的優勢是在文本處理以及大數據量處理場景,且易於開發。在相關分析領域,Python代替R的勢頭越來越明顯。
Java語言——通用性編程語言,能力最全面,擁有最多的開源大數據處理資源(統計、機器學習、NLP等等)直接使用。也得到所有分布式計算框架(Hadoop/Spark)的支持。
前面的內容介紹了面向大數據研究的不同工具軟體/語言的特點和適用場景。 這些工具能夠極大增強研究員在大數據環境下的分析能力,但更重要的是研究員要發揮自身對業務的深入理解,從數據結果中洞察發現有深度的結果,這才是最有價值的。
以上是小編為大家分享的關於大數據研究常用軟體工具與應用場景的相關內容,更多信息可以關注環球青藤分享更多干貨
『貳』 碩士論文研究一個數據較少的新事物用什麼方法比較好
你的論文准備往什麼方向寫,選題老師審核通過了沒,有沒有列個大綱讓老師看一下寫作方向?
老師有沒有和你說論文往哪個方向寫比較好?寫論文之前,一定要寫個大綱,這樣老師,好確定了框架,避免以後論文修改過程中出現大改的情況!!
學校的格式要求、寫作規范要注意,否則很可能發回來重新改,你要還有什麼不明白或不懂可以問我,希望你能夠順利畢業,邁向新的人生。
一、畢業論文選題的重要意義
第一、選題是撰寫畢業論文的第一步,它實際上是確定「寫什麼」的問題,也就是確定論文論述的方向。如果「寫什麼」都不明確,「怎麼寫」根本無從談起,因此畢業論文的順利完成離不開合適的論文選題。
第二、畢業論文的寫作一方面是對這幾年所學知識的一次全面檢驗,同時也是對同學們思考問題的廣度和深度的全面考察。因此,畢業論文的選題非常重要,既要考慮論文涉及的層面,又要考慮它的社會價值。
二、畢業論文選題的原則
(一)專業性原則
畢業論文選題必須緊密結合自己所學的專業,從那些學過的課程內容中選擇值得研究或探討的學術問題,不能超出這個范圍,否則達不到運用所學理論知識來解決實際問題的教學目的。我們學的是工商管理專業,選題當然不能脫離這個大范疇,而且在限定的小范圍內,也不能脫離工商管理、經營去談公共事業管理或金融問題。學術研究是無止境的,任何現成的學說,都有需要完善改進的地方,這就是選題的突破口,由此入手,是不難發現問題、提出問題的。
(二)價值性原則
論文要有科學價值。那些改頭換面的文章抄襲、東拼西湊的材料匯集以及脫離實際的高談闊論,當然談不上有什麼價值。既然是論文,選題就要具有一定的學術意義,也就是要具有先進性、實踐性和一定的理論意義。對於工商管理專業的學生而言,我們可以選擇管理中有理論意義和實踐指導意義的論題,或是對提高我國的管理水平有普遍意義的議題,還可以是新管理方法的使用。畢業論文的價值關鍵取決於是否有自己的惡創見。也就是說,不是簡單地整理和歸納書本上或前人的見解,而是在一定程度上用新的事實或新的理論來豐富專業學科的某些內容,或者運用所學專業知識解決現實中需要解決的問題。
(三)可能性原則
選題要充分考慮到論題的寬度和廣度以及你所能佔有的論文資料。既要有「知難而進」的勇氣和信心,又要做到「量力而行」。」選題太大、太難,自己短時間內無力完成,不行;選題太小、太易,又不能充分發揮自己的才能,也不行。一切應從實際出發,主要應考慮選題是否切合自己的特長和興趣,是否可以收集到足夠的材料和信息,是否和自己從事的工作相接近。一定要考慮主客觀條件和時限,選擇那些適合自己情況,可以預期成功的課題。一般來說,題目的大小要由作者實際情況而定,很難作硬性規定要求。有的同學如確有水平和能力,寫篇大文章,在理論上有所突破和創新,當然是很好的。但從成人高校學生的總體來看,選題還是小點為宜。小題目論述一兩個觀點,口子雖小,卻能小題大做,能從多層次多角度進行分析論證.這樣,自己的理論水平可以發揮,文章本身也會寫得豐滿而充實。選擇一個比較恰當的小論題,特別是與自己的工作或者生活密切相關的問題,不僅容易搜集資料,同時對問題也看得准,論述也會更透徹,結論也就可能下得更准確。
三、畢業論文選題的方法
第一、 瀏覽捕捉法。這種方法是通過對佔有的論文資料快速、大量地閱讀,在比較中來確定題目的方法。瀏覽,一般是在資料佔有達到一定數量時集中一段時間進行,這樣便於對資料作集中的比較和鑒別。瀏覽的目的是在咀嚼消化已有資料的過程中,提出問題,尋找自己的論題。這就需要我們對收集到的材料進行全面閱讀研究,主要的、次要的、不同角度的、不同觀點的都應了解,不能「先入為主」,不能以自己頭腦中原有的觀點決定取捨。而應冷靜地、客觀地對所有資料作認真的分析思考,從內容豐富的資料中吸取營養,反復思考琢磨之後,就會有所發現,然後再根據自己的實際確定自己的論題。
第二、 追溯驗證法。這種方法要求同學們先有一種擬想,然後再通過閱讀資料加以驗證來確定選題的方法。同學們應該先有自己的主觀論點,即根據自己平時的積累,初步確定準備研究的方向、題目或選題范圍。這種選題方法應注意:看自己的「擬想」是否與別人重復,是否對別人的觀點有補充作用;如果自己的「擬想」雖然別人還沒有談到,但自己尚缺乏足夠的理由來加以論證,那就應該中止,再作重新構思。要善於捕捉一閃之念,抓住不放,深入研究。在閱讀文獻資料或調查研究中,有時會突然產生一些思想火花,盡管這種想法很簡單、很朦朧,也未成型,但千萬不可輕易放棄。
第三、 知識遷移法。通過四年的學習,對某一方面的理論知識(經濟或者法律或者其它)有一個系統的新的理解和掌握。這是對舊知識的一種延伸和拓展,是一種有效的更新。在此基礎之上,同學們在認識問題和解決問題的時候就會用所學到的新知識來感應世界,從而形成一些新的觀點。理論知識和現實的有機結合往往會激發同學們思維的創造力和開拓性,為畢業論文的選題提供了一個良好的實踐基礎和理論基礎。
第四、 關注熱點法。熱點問題就是在現代社會中出現的能夠引起公眾廣泛注意的問題。這些問題或關系國計民生,或涉及時代潮流,而且總能吸引人們注意,引發人們思考和爭論。同學們在平時的學習和工作中大部分也都會關注國際形勢、時事新聞、經濟變革。選擇社會熱點問題作為論文論題是一件十分有意義的事情,不僅可以引起指導老師的關注,激發閱讀者的興趣和思考,而且對於現實問題的認識和解決也具有重要的意義。將社會熱點問題作為論文的論題對於同學們搜集材料、整理材料、完成論文也提供了許多便利。
第五,調研選題法。調研選題法類同於關注社會熱點這樣的選題方法,但所涉及的有一部分是社會熱點問題,也有一部分並不是社會熱點問題。社會調研可以幫助我們更多地了解調研所涉問題的歷史、現狀以及發展趨勢,對問題的現實認識將更為清晰,並可就現實問題提出一些有針對性的意見和建議。同學們將社會調研課題作為畢業論文的論題,有著十分重要的現實意義,不僅可為地方經濟建設和社會發展提供有價值的資料和數據,而且可為解決一些社會現實問題提供一個很好的路徑。
『叄』 在數據較少的情況下如何更精確地做數據的分析
不知道你的數據少到什麼程度。其實少也是可以做一些事情的,主要是用合適的方法。如你可以用灰色系統理論處理小數據的樣本分析;你也可以用數據挖掘的方法,通過抽樣來分析,典型的例子購買者占不到5%,傳統的方法分析不出什麼特徵了,但是數據挖掘可以做到。
『肆』 數據比較少時候用什麼統計方法比較好
統計數據比較多的時候可用普通的數學上的平均法,次數比較少的時候可用首尾折半法!
anova 有多種anova , One-way ANOVA , 兩組數據 Factorial ANOVA, 測試不同的方法對數據的影響 Repeated measures ANOVA, 測試數據的環境是否相同 Multivariate analysis of variance (MANOVA 多因子變數 數據的分布形態是正態分布,
具體看書
『伍』 數據不足對研究有哪些影響
您好。任何對數據的分析和挖掘都是建立在或多或少的病態數據基礎上的,沒有好的數據,就不可能提供可靠的信息和知識~
『陸』 論文用數據是什麼研究方法
論文用數據是數學方法。
數學方法就是在撇開研究對象的其他一切特性的情況下,用數學工具對研究對象進行一系列量的處理,從而作出正確的說明和判斷,得到以數字形式表述的成果。科學研究的對象是質和量的統一體,它們的質和量是緊密聯系,質變和量變是互相制約的。
要達到真正的科學認識,不僅要研究質的規定性,還必須重視對它們的量進行考察和分析,以便更准確地認識研究對象的本質特性。數學方法主要有統計處理和模糊數學分析方法。
論文的作用:
1、提高研究者的研究水平
撰寫科研論文,不僅是反映科研成果的問題,而且也是個深化科研成果和發展科研成果的問題,在撰寫科研論文過程中,對實驗研究過程所取得的大量材料進行去粗取精,實現由感性認識向理性認識的飛躍和升華,使研究活動得到深化,使人們的認識得到深化。
2、推動教育科研活動自身不斷完善
教育科研活動是個探索未知領域的活動,並無既定模式和途徑可循,在一定意義上可以講,教育科研活動均屬創造性活動。為了保證教育科研活動越發卓有成效,為了給進一步開展教育科研活動提供可靠依據,在每一科研活動終端都撰寫報告或論文是十分必要的。