⑴ 盤點2021年大數據分析常見的5大難點!
2021年已經到來,現在是深入研究大數據分析面臨的挑戰的時候了,需要調查其根本原因,本文重點介紹了解決這些問題的潛在解決方案。
1、解決方案無法提供新見解或及時的見解
(1)數據不足
有些組織可能由於分析數據不足,無法生成新的見解。在這種情況下,可以進行數據審核,並確保現有數據集成提供所需的見解。新數據源的集成也可以消除數據的缺乏。還需要檢查原始數據是如何進入系統的,並確保所有可能的維度和指標均已經公開並進行分析。最後,數據存儲的多樣性也可能是一個問題。可以通過引入數據湖來解決這一問題。
(2)數據響應慢
當組織需要實時接收見解時,通常會發生這種情況,但是其系統是為批處理而設計的。因此有些數據現在仍無法使用,因為它們仍在收集或預處理中。
檢查組織的ETL(提取、轉換、載入)是否能夠根據更頻繁的計劃來處理數據。在某些情況下,批處理驅動的解決方案可以將計劃調整提高兩倍。
(3)新系統採用舊方法
雖然組織採用了新系統。但是通過原有的辦法很難獲得更好的答案。這主要是一個業務問題,並且針對這一問題的解決方案因情況而異。最好的方法是咨詢行業專家,行業專家在分析方法方面擁有豐富經驗,並且了解其業務領域。
2、不準確的分析
(1)源數據質量差
如果組織的系統依賴於有缺陷、錯誤或不完整的數據,那麼獲得的結果將會很糟糕。數據質量管理和涵蓋ETL過程每個階段的強制性數據驗證過程,可以幫助確保不同級別(語法、語義、業務等)的傳入數據的質量。它使組織能夠識別並清除錯誤,並確保對某個區域的修改立即顯示出來,從而使數據純凈而准確。
(2)與數據流有關的系統缺陷
過對開發生命周期進行高質量的測試和驗證,可以減少此類問題的發生,從而最大程度地減少數據處理問題。即使使用高質量數據,組織的分析也可能會提供不準確的結果。在這種情況下,有必要對系統進行詳細檢查,並檢查數據處理演算法的實施是否無故障
3、在復雜的環境中使用數據分析
(1)數據可視化顯示凌亂
如果組織的報告復雜程度太高。這很耗時或很難找到必要的信息。可以通過聘請用戶界面(UI)/用戶體驗(UX)專家來解決此問題,這將幫助組織創建引人注目的用戶界面,該界面易於瀏覽和使用。
(2)系統設計過度
數據分析系統處理的場景很多,並且為組織提供了比其需要還要多的功能,從而模糊了重點。這也會消耗更多的硬體資源,並增加成本。因此,用戶只能使用部分功能,其他的一些功能有些浪費,並且其解決方案過於復雜。
確定多餘的功能對於組織很重要。使組織的團隊定義關鍵指標:希望可以准確地測量和分析什麼,經常使用哪些功能以及關注點是什麼。然後摒棄所有不必要的功能。讓業務領域的專家來幫助組織進行數據分析也是一個很好的選擇。
4、系統響應時間長
(1)數據組織效率低下
也許組織的數據組織起來非常困難。最好檢查其數據倉庫是否根據所需的用例和方案進行設計。如果不是這樣,重新設計肯定會有所幫助。
(2)大數據分析基礎設施和資源利用問題
問題可能出在系統本身,這意味著它已達到其可擴展性極限,也可能是組織的硬體基礎設施不再足夠。
這里最簡單的解決方案是升級,即為系統添加更多計算資源。只要它能在可承受的預算范圍內幫助改善系統響應,並且只要資源得到合理利用就很好。從戰略角度來看,更明智的方法是將系統拆分為單獨的組件,並對其進行獨立擴展。但是需要記住的是,這可能需要對系統重新設計並進行額外的投資。
5、維護成本昂貴
(1)過時的技術
組織最好的解決辦法是採用新技術。從長遠來看,它們不僅可以降低系統的維護成本,還可以提高可靠性、可用性和可擴展性。逐步進行系統重新設計,並逐步採用新元素替換舊元素也很重要。
(2)並非最佳的基礎設施
基礎設施總有一些優化成本的空間。如果組織仍然採用的是內部部署設施,將業務遷移到雲平台可能是一個不錯的選擇。使用雲計算解決方案,組織可以按需付費,從而顯著降低成本。
(3)選擇了設計過度的系統
如果組織沒有使用大多數系統功能,則需要繼續為其使用的基礎設施支付費用。組織根據自己的需求修改業務指標並優化系統。可以採用更加符合業務需求的簡單版本替換某些組件。
⑵ 如何應對「大數據時代」的挑戰
大數據行業面臨的五大挑戰如下:
挑戰一:數據來源錯綜復雜
豐富的數據源是大數據產業發展的前提。而我國數字化的數據資源總量遠遠低於美歐,每年新增數據量僅為美國的7%,歐洲的12%,其中政府和製造業的數據資源積累遠遠落後於國外。就已有有限的數據資源來說,還存在標准化、准確性、完整性低,利用價值不高的情況,這大大降低了數據的價值。
現如今,幾乎任何規模企業,每時皮枯每刻也都在產生大量的數據,但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的數據信息,而在於對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是如何獲取大量有價值的數據。
挑戰二:數據挖掘分析模型建立
步入大數據時代,人們紛紛在談論大數據,似乎這已經演化為新的潮流趨勢。數據比以往任何時候都更加根植於我們生活中的每個角落。我們試圖用數據去解決問題、改善福利,並且促成新的經濟繁榮。人們紛紛流露出去大數據的高期待以及對大數據分析技術的格外看好。然而,關於大數據分析,人們鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因主要有以下兩點:一是對於大數據分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大數據分析中的某些重大要件或技術還不成熟。大數據時代下數據的海量增長以及缺乏這種大數據分析邏輯以及大數據技術的待發展,正是大數據時代下我們面臨的挑戰。
挑戰三:數據開放與隱私的權衡
數據應用的前提是數據開放,這已經是共識。有專業人士指出,中國人口居世界首位,但2010年中國新存儲的數據為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構擁有大量數據但寧願自己不用也不願提供給有關部門共享,導致信息不完整或重復投資。2012年中國的數據存儲量達到64EB,其中渣談55%的數據需要一定程度的保護,然而目前只有不到一半的數據得到保護。
挑戰四:大數據管理與決策
大數據的技術挑戰顯而易見,但其帶來的決策挑戰更為艱巨。大數據至關重要的方面,就是它會直接影響組織怎樣作決策、誰來作決策。在信息有限、獲取成本高昂且沒有被數字化的時代,組織內作重大決策的人,都是典型的位高權重的人,要不然就是高價請來的擁有專業技能和顯赫履歷的外部智囊。但是,在今時今日的商業世界中,高管的決策仍然更多地依賴個人經驗和直覺,而不是基於數據。
挑戰五:大數據人才缺口
如果說,以Hadoop為代表的大數據是一頭小象,那麼企業必須有能夠馴服它的馴獸師。在很多企業熱烈擁抱這類大數據技術時,精通大數據技術的相關人才也成為燃梁洞一個大缺口。
⑶ 大數據面臨的技術挑戰
上周在大數據的趨勢和特點中,說到了人類這次面臨的問題不是問題無法解決,而是問題過於復雜。採用機械思維,其速度和效率已經趕不上新問題的產生。正是在這種分工越來越細,協作越來越緊密,問題越來越復雜的背景下,產生了大數據思維。大數據思維也由其獨特的體量大、多樣性和完備性,使得過去看來很復雜很難處理的問題變得可以解決了。
其實早在20世紀60年代就有研究學者提出採用人工智慧的方法來解決社會問題。當時的人工智慧方法還是局限於通過首先了解人類是如何產生智能,然後讓計算機按照人的思路去做。吳軍老師在《智能時代》中說到:「在人類發明的歷史上,很多領域早期的嘗試都是模仿人或者動物的行為,因為這是我們的直覺最容易想到的方法。」 但是經過十幾年的發展,科學家們發現採用上面的思路去發展人工智慧,似乎解決不了什麼實際問題。很多科學家開始反思人工智慧的發展,而在之後的20年左右的時間,在人工智慧學術界的研究是處於低谷的。20世紀70年代,人類開始嘗試智能的另一條發展道路,即採用數據驅動和超級計算的方法。即便在10年前,那時我還在念書,也曾接觸過人工神經網路演算法。很顯然,當時對機器智能的概念大家都還是比較模糊的,人工智慧也還沒有被我們提高到現在的高度。
機器智能的概念在60多年就被提出來了,真正的突破卻在具有了大數據的今天。為什麼大數據的拐點會發生在今天?大數據到底面臨何種技術挑戰?
過去的10年,最容易看到的特徵就是全球數據量呈爆炸式增長。大數據的第一個來源是電腦本身;第二個來源是感測器;第三個來源是將那些過去已經存在的、以非數字化形式儲存的信息數字化。據2015年思科公司的統計數據顯示,從2009~2015年的6年時間內,企業級數據增長了50倍。當然數據的爆炸式增長,離不開電腦硬體、軟體、互聯網、數據儲存、數據處理等一系列配套技術的發展和支撐。大數據實際上是對計算機科學、電機工程、通信、應用數學和認知科學發展的一個綜合考量。目前這些技術難題不一定有最佳的解決方案,甚至不存在什麼絕對好的解決辦法。
一、數據收集
傳統的數據方法常常是先有一個目的,然後開始收集數據。比如,海王星的發現就是在人們發現天王星運動軌跡和牛頓力學預測出來的不一樣之後,天文學家拍了很多星空的照片後發現的;心理學研究也是在有了一個明確的研究課題後,再通過實驗的方法採集數據,如 「棉花糖測驗」系列實驗,以及關於認知失調的「追隨者案例」等等。大數據則避免了采樣之苦,因為大數據常常以全集(大數據的特徵之一)作為樣本集。
但是,如何收集到全集就是一件很有挑戰的事情了。目前一些聰明公司,比如Google, Facebook, 網路,京東都是繞一個彎子,間接地去收集數據,然後利用數據的相關性,導出自己想要的結論。但是即便是這些如此成功的公司,仍然也有很多失敗的案例。2010年,Google推出了自己的電視機頂盒Google TV,為了獲取數據為進入電視廣告做准備。但是,由於Google TV銷售得很差,最終Google徹底地放棄了這產品。到目前為止,無論是Google過去的機頂盒,還是後來的Chromecast,蘋果的Apple TV,除了統計一下收視率,計算一下可能的廣告觀眾,並沒有什麼大的作為。數據收集是一個開放性的話題,不存在唯一性或最佳方法,目前仍然面臨著很大的挑戰。
二、數據儲存
僅Google街景地圖每天產生的數據量就有1TB,假如一份數據存三個拷貝,一年下來就1PB。即使使用當今最大容量的10TB硬碟,也需要用100個。因此,不能簡單地依靠設備來解決數據儲存的問題,而是需要技術解決方案來提高儲存效率,保證不斷產生出來的數據都能存得下。目前的數據儲存手段主要是從如下2個方面考慮:去除數據冗餘和便於使用。去除數據冗餘可以簡單理解為去除數據中的重復部分,比如同一份附件在所有的郵件中只儲存一次。這樣,在去除數據冗餘的過程中,相應的數據讀寫處理就要改變。是否有比現在更有效率的儲存格式或方式,仍然是大數據所面臨的挑戰。另外,便於使用的思路是從使用者的角度就去考慮數據的儲存。大數據之前,數據在設計文件系統的數據儲存格式時,主要考慮的是規模小、維度少的結構化數據。到了大數據時代,不僅數據量和維度都劇增,而且大數據在形式上也沒有固定模式,因此需要重新設計通用、有效和便捷的數據表示方式和儲存方式。
三、數據處理
大數據由於體量大、維度多,處理起來計算量巨大,其處理效率是一大技術挑戰。並行計算是目前解決計算量巨大的重要手段,但仍然存在一些的問題。例如,任何一個問題總用一部分計算是無法並行計算的,這類計算佔比越大,並行處理的效率就越低;再次,並行計算中無法保證每一個小任務的計算量是相同的,這樣一來,並行計算的效率也會大打折扣,即完成了自己計算任務的伺服器需要等待個別尚未完成的伺服器,最終的計算速度取決於最後完成的子任務。
四、數據挖掘
如何從一堆雜亂無章的數據中挖掘出有價值的信息,是機器智能的關鍵,也是大數據的使命。數據在進行降噪處理之後,基本就可以直接使用了,接下來的關鍵一步就是機器學習。目前廣泛使用的機器學習演算法有人工神經網路演算法、最大熵模型、邏輯自回歸等。Google公司的AlphaGo的訓練演算法就是人工神經網路。機器學習的過程是一個不斷迭代、不斷進化的過程,只要事先定出一個目前,這些演算法就會不斷地優化模型,讓它越來越接近真實的情況。尋找更優演算法一直也是科學家們探索的難題。
五、數據安全
大數據應用的一個挑戰還來自數據安全的擔憂和對隱私的訴求。2014年爆出的索尼公司丟失數據時,造成的損失高達1億美元。比商業數據丟失後損失更大的是醫療數據的被盜。在中國,除了在北京建立了大數據中心,還在貴陽建立了大數據災備中心,而且正籌備在內蒙古再建立另一個數據災備中心。而關於數據隱私,我想大家應該是深有感觸,由於信息泄露而帶來的騷擾電話以及電信詐騙,就發生在我們每個人身上。據《智能時代》中記載:「在美國的黑市上,一個醫療記錄的賣家是商業數據的50倍左右」。可見,數據安全已然成為大數據發展的一大隱患和難題。
上述大數據5個方面的技術挑戰並不是獨立的,而是相輔相成、互相影響的。關於大數據的技術挑戰在此僅談談個人的一點認識,希望對大家在這方面的思考有所幫助。下周我們繼續聊,大數據給我們帶來便利以及隱患。
⑷ 大數據時代的挑戰、價值與應對策略
大數據時代的挑戰、價值與應對策略
隨著移動互聯網、物聯網、雲計算等的快速發展,及視頻監控、智能終端、應用商店等的快速普及,全球數據量出現爆炸式增長。在此背景下,電信運營商在其網路無休止擴容的同時,卻面臨「增量不增收」的困境;而一些採用「數據驅動型決策」模式經營的公司,則可將其生產力提高5%~6%。因此,有必要深入研究大數據時代(Big Data Era)的挑戰、價值與務實應對策略。
1大數據時代的基本特徵
據統計,2010年以互聯網為基礎所產生的數據比之前所有年份的總和還要多;而且不僅是數據量的激增,數據結構亦在演變。Gartner預計,2012年半結構和非結構化的數據,諸如文檔、表格、網頁、音頻、圖像和視頻等將佔全球網路數據量的85%左右;而且,整個網路體系架構將面臨革命性改變。由此,所謂大數據時代已經來臨!
對於大數據時代,目前通常認為有下述四大特徵,稱為「四V」特徵:
(1)量大(Volume Big)。數據量級已從TB(1012位元組)發展至PB乃至ZB,可稱海量、巨量乃至超量。
(2)多樣化(Variable Type)。數據類型繁多,愈來愈多為網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息。
(3)快速化(VelocityFast)。數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理;處理工具亦在快速演進,軟體工程及人工智慧等均可能介入。
(4)價值高和密度低(Value HighandLowDensity)。以視頻安全監控為例,連續不斷的監控流中,有重大價值者可能僅為一兩秒的數據流;360°全方位視頻監控的「死角」處,可能會挖掘出最有價值的圖像信息。
2大數據時代面臨的挑戰
(1)運營商帶寬能力與對數據洪流的適應能力面臨前所未有的挑戰,管道化壓力化解及「雲-管-端」的有效裝備也均面臨新挑戰。
(2)大數據的「四V」特徵在數據存儲、傳輸、分析、處理等方面均帶來本質變化。數據量的快速增長,對存儲技術提出了挑戰;同時,需要高速信息傳輸能力支持,與低密度有價值數據的快速分析、處理能力。
(3)海量數據洪流中,在線對話與在線交易活動日益增加,其安全威脅更為嚴峻;而且現今黑客的組織能力、作案工具、作案手法及隱蔽程度更上一層樓,典型的有APT(Advanced Persistent Threat,高級持續性安全威脅)。
(4)大數據環境下通過對用戶數據的深度分析,很容易了解用戶行為和喜好,乃至企業用戶的商業機密,對個人隱私問題必須引起充分重視。
(5)大數據時代的基本特徵,決定其在技術與商業模式上有巨大的創新空間,這將對可持續發展起關鍵作用。
(6)大數據時代的基本特徵及安全挑戰,對政府制訂規則與監管部門發揮作用提出了新的挑戰。
3大數據帶來的價值
(1)利用大數據特徵,藉助雲計算等有效工具,深度挖掘流量與數據價值,可幫助運營商實施好流量經營,減輕管道化風險,發揚「雲-管-端」的智能管道的威力。
(2)多業務環境下掌握用戶體驗效果尤為重要,可從海量用戶數據中深度分析、挖掘出用戶的行為習慣和消費愛好,以實施精準營銷及網路優化,掌控數據增值的「金鑰匙」。
(3)掌握好大數據的存儲、分類、挖掘、快速調用和決策支撐,並應用於企業的日常運營、維護及戰略轉型中,成為企業可持續發展、維持競爭優勢的當務之急與重要途徑。
(4)充分利用對大數據的分析、挖掘,可幫助找到隱蔽性極強的APT之類的安全威脅,助力信息安全部門找到應對新型安全威脅的有效途徑。
(5)通過對公共大數據的分析、挖掘與利用,可減少欺詐行為及錯誤數據的負面作用、追收逃稅漏稅及刺激公共機構生產力等,幫助政府節省開支。例如英國政府即通過此途徑節省大約330億英鎊/年。
4大數據時代的應對策略
(1)大數據時代應以智慧創新理念融合大數據與雲計算,在大數據洪流中提升知識價值洞察力,實施高效實時個性化運作,建立有效增值的商業模式,確保應對APT之類的新型安全威脅。
(2)電信運營商轉型中流量經營已成共識,即以智能管道與聚合平台為基礎,以擴大流量規模、提升流量層次及豐富流量內涵作為基本經營方向,並以釋放流量價值為基本目標,可見大數據和雲計算的深度融合與此流量經營目標十分吻合。實際上已經有一些運營商藉助大數據Hadoop雲工具管理與分析網路中的用戶數據,為日常運維及制定市場戰略等提供有效支撐。
(3)針對大數據時代的基本特徵,加強全方位創新。包括IBM、EMC、HP、Microsoft等在內的IT巨頭,紛紛加速收購相關大數據公司進行技術整合,尋找數據洪流大潮中新的立足點。而涉及人工智慧、機器學習等新技術的創新應用,已初顯效益。
(4)將大數據時代全方位創新工作和智慧城市發展緊密結合。藉助移動互聯網、大數據與雲計算的融合、智能運營管道等,建立智能平台,優化配置城市資源,向真正的智慧城市邁進。
(5)藉助大數據創新處理技術應對APT安全攻擊。APT安全攻擊的最主要特徵為單點隱蔽能力強、攻擊空間路徑不確定、攻擊渠道不確定;同時APT攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續性。目前,全流量審計方案具備強大的實時檢測能力與事後回溯能力,並可將安全工作人員的分析能力、計算機存儲與運算能力組合在一起,是一種較完整的解決方案。