『壹』 大數據在互聯網用戶系統中的應用
大數據在互聯網用戶系統中的應用
但是對於今日的互聯網和移動互聯網,大數據的規模和應用深度早已不次於傳統的電信、民航等行業,甚至超過不少。因此筆者還是想寫些東西淺談一下互聯網的大數據應用,權當拋磚引玉,也希望更多的朋友參與交流和討論。
首先,第一篇想談一下互聯網的用戶系統。無論互聯網還是移動互聯網,本身具有很大的特性就是互聯,所以我們都可以稱之為互聯網,或者說移動互聯網是互聯網的一個子集和延伸。
在傳統的電信、民航、能源等行業,企業的客戶和主體用戶構成都是有身份ID的。比如電信行業中身份證登記的手機卡號,比如民航用戶乘坐航班登機的身份證或護照信息等,這些信息可以作為基本的用戶身份ID,便於企業對其用戶、客戶進行身份辨別,並對後續的用戶行為進行跟蹤和分析。傳統企業所存儲的用戶信息的很大優勢在於完整性,很多先天的比如姓名、性別、年齡甚至籍貫等真實的基礎身份信息都可以簡單獲得。而在互聯網上,用戶的訪問都是匿名的,即使用戶在接入互聯網的時候使用的登記信息是實名的,但那主要是提供給電信服務商和公共安全機構備案而用。普通的互聯網網站在用戶面前是完全透明的被"圍觀"的,這個狀況在web1.0 的主要產品--門戶網站中最為典型。到了web2.0 時代,互聯網開始變得互動起來,用戶從簡單的匿名瀏覽,變成了可以通過注冊身份參與信息的製造和流通。這個時候,誕生了這個時代在談的互聯網大數據應用中非常重要的一個非決定性條件--用戶身份系統。為什麼說是"非決定性條件"呢?因為,在這之前,大量的數據分析也是可以做的,但是由於對用戶缺乏身份缺乏甄別,因此數據分析能夠應用的場景和得到的數據都相對很有限,但並不代表不能做大數據分析。而web2.0的用戶身份系統誕生,則使互聯網某種程度上具有了和傳統行業同樣的用戶身份記錄系統,數據統計和分析都可以更精準和深入。其中,以騰訊QQ、新浪UC等PC桌面產品為代表的互聯網早期產品,應該是建立了互聯網更早的用戶身份系統,我們也可以看到這些系統在其後續的web產品鋪開時同樣被繼承了過來。
那麼,互聯網的用戶身份系統,一般都具有哪些信息呢?
打開任何一個網站,我們都可以看到注冊頁面需要填寫用戶名/email,性別,年齡 等基本信息。當然,不同的網站和互聯網產品有不同的用戶資料細化的程度。拿現在比較流行的幾款產品做比較,其他互聯網產品大多類似:1.新浪微博中用戶可以填寫自己的昵稱、頭像、真實姓名、所在地、性別、生日、博客地址、email、QQ/MSN、自我介紹、用戶標簽、教育信息、職業信息……;2.騰訊QQ客戶端上可以填寫頭像、昵稱、個性簽名、姓名、性別、英文名、生日、血型、生肖、故鄉、所在地、郵編、電話、學歷、職業、語言、手機……
看起來還真不少,那麼網站要用戶的這些信息會被幹嘛用呢?
這里筆者劉三德認為主要有以下幾點:1. 展示自我;2.作為唯一的身份ID用作用戶身份區別;3.搜索和推薦相關;4.網站自身可以做用戶分析和用戶行為跟蹤。展現自我放到第一位是因為這是從產品滿足用戶需求的角度決定的,用戶資料的首要任務就是為了作為用戶唯一的可識別身份標識展示自我。其次,搜索和推薦相關這一點筆者劉三德計劃在後續用專門的篇章來寫,此處簡單理解即可。最後一點,也就是本文所關注的一點,就是用用戶身份來做數據分析。涉及到的用戶分析主要維度為用戶資料和用戶行為。同樣,用戶行為也計劃在後續篇章專門來寫,本文著重討論一下用戶資料的分析。
可能行業內的一些文章和老前輩的觀點,數據首先要量大、其次要有高的復雜度,才可以稱為大數據。但筆者認為,大數據在一維的層次上不一定具有很強的復雜度,大部分是由最簡單的數據形式構成。就譬如用戶資料,一個網站如果有一千萬的注冊用戶,如果每個用戶的資料具有6個有效欄位,就是6000萬的有效數據。而將這6000萬的有效數據通過一層或者幾層簡單的統計疊加分析、交叉分析等,在計算上本身就具有了不小的復雜度。何況現今的互聯網產品,尤其社交類產品如FACEBOOK,騰訊QQ、新浪微博等動輒上億的注冊用戶,本身用戶系統就是一個非常具有價值的大數據。[page]
通過分析用戶系統可以得到什麼呢?
當然,用戶填寫的注冊資料中包含的資料,都是最基礎的分析數據。還是用數據說話,如下圖:
以上圖片來自互聯網
以上數據是第三方機構公布的,而且都是最簡單的一維數據,我們可以看到很多家網站的用戶資料對比(上面引用的部分數據來源也可為線上調查問卷等形式)。對於獨立的一個網站來說,用戶資料的分析當然只是局限在自己的網站范圍之內。進入互聯網web2.0時代以後,大家都開始更加重視用戶和用戶體驗,對於網站自身用戶的特徵進行分析,可以更好的網站的用戶特性分布,方便針對網站的用戶群特點更有針對性的進行對應的產品設計和研發。比如通過了解用戶的消費層次等,也可以更好的提供用戶消費相關展示和服務。
那麼,無用戶身份信息的互聯網是否不再大數據?--不用注冊的用戶身份系統的。
可能有的朋友會對這個話題存疑問,也可能有的朋友會驚恐,認為隱私泄露了,其實這里的應用也非常簡單。在類似傳統的web1.0 門戶類以展示為主的互聯網產品中,也是可以做數據的分析和挖掘的,而且也有比較成熟的方案。是否有朋友曾經經歷過以下場景:在網路上搜索汽車、查了半天汽車資料,一個小時以後再隨手打開的一個圖書閱讀網站上居然出現了"汽車廣告".其實,即使我們沒有在這些網站上注冊,網路等搜索引擎本身還是可以為用戶標識一個唯一的身份信息,雖然這個身份信息只是臨時的,可能有效期也只有幾天左右。但是,這依然是一種唯一的用戶身份,只不過是記錄的信息有限而已,但是仍然為用戶行為分析提供了很大的幫助。感興趣的朋友可以搜索"google adsense隱私政策" 進行相關了解,此處不在贅述。
用戶資料系統方便了一系列的大數據挖掘
除了傳統的互聯網桌面端和web端產品,最近幾年突飛猛進的移動互聯網以及終端應用,基本也都有完備的用戶信息系統。apple蘋果公司做了app store,迄今為止的應用下載次數突破250億次,而每一次的下載都需要使用唯一的用戶ID,通過分析,蘋果可能比你父母更加了解你想要什麼--這屬於用戶行為分析范疇,後續將專門討論。
總之,用戶身份和資料的分析是互聯網大數據分析中最基礎的分析,用戶身份系統在互聯網的大數據時代,為後續的用戶行為分析和對應的企業產品、服務設計提供了基石,也為更加深入的數據挖掘奠定了基礎。
『貳』 大數據的內容和基本含義
「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,什麼是大數據概念呢,大數據概念怎麼理解呢,一起來看看吧。
1、大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
2、大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。
3、大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
4、大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分布式計算架構,依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。
5、大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。
6、大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。
『叄』 大數據時代,為什麼要使用大數據
大數據是什麼?是一種運營模式,是一種能力,還是一種技術,或是一種數據集合的統稱?今天我們所說的「大數據」和過去傳統意義上的「數據」的區別又在哪裡?大數據的來源又有哪些?等等。當然,我不是專家學者,我無法給出一個權威的,讓所有人信服的定義,以下所談只是我根據自己的理解進行小結歸納,只求表達出我個人的理解,並不求全面權威。先從「大數據」與「數據」的區別說起吧,過去我們說的「數據」很大程度上是指「數字」,如我們所說的客戶量,業務量,營業收入額,利潤額等等,都是一個個數字或者是可以進行編碼的簡單文本,這些數據分析起來相對簡單,過去傳統的數據解決方案(如資料庫或商業智能技術)就能輕松應對;而今天我們所說的「大數據」則不單純指「數字」,可能還包括「文本,圖片,音頻,視頻……」等多種格式,其涵括的內容十分豐富,如我們的博客,微博,輕博客,我們的音頻視頻分享,我們的通話錄音,我們位置信息,我們的點評信息,我們的交易信息,互動信息等等,包羅萬象。用正規的語句來概括就是,「數據」是結構化的,而「大數據」則包括了「結構化數據」「半結構化數據」和「非結構化數據」。關於「結構化」「半結構化」「非結構化」可能從字面上比較難理解,在此我試著用我的語言看能否形象點地表達出來:由於數據是結構化的,數據分析可以遵循一定現有規律的,如通過簡單的線性相關,數據分析可以大致預測下個月的營業收入額;而大數據是半結構化和非結構化的,其在分析過程中遵循的規律則是未知的,它通過綜合方方面面的信息進行模擬,它以分析形式評估證據,假設應答結果,並計算每種可能性的可信度,通過大數據分析我們可以准確找到下一個市場熱點。 基於此,或許我們可以給「大數據」這樣一個定義,「大數據」指的是收集和分析大量信息的能力,而這些信息涉及到人類生活的方方面面,目的在於從復雜的數據里找到過去不容易昭示的規律。相比「數據」,「大數據」有兩個明顯的特徵:第一,上文已經提到,數據的屬性是包括結構化、非結構化和半結構化數據;第二,數據之間頻繁產生交互,大規模進行數據分析,並實時與業務結合進行數據挖掘。解決了大數據是什麼,接下來還有一個問題,大數據的來源有哪些?或者這個問題這樣來表達會更清晰「大數據的數據來源有哪些?」對於企業而言,大數據的數據來源主要有兩部分,一部分來自於企業內部自身的信息系統中產生的運營數據,這些數據大多是標准化、結構化的。(若繼續細化,企業內部信息系統又可分兩類,一類是「基幹類系統」,用來提高人事、財會處理、接發訂單等日常業務的效率;另一類是「信息類系統」,用於支持經營戰略、開展市場分析、開拓客戶等。)傳統的商業智能系統中所用到的數據基本上數據該部分。而另外一部分則來自於外部,包括廣泛存在於社交網路、物聯網、電子商務等之中的非結構化數據。這些非結構化數據由源於 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成,其產生往往伴隨著社交網路、移動計算和感測器等新的渠道和技術的不斷涌現和應用。具體包括了:如,呼叫詳細記錄、設備和感測器信息、GPS 和地理定位映射數據、通過管理文件傳輸協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。由於來源不同,類型不同的數據透視的是同一個事物的不同的方面,以消費客戶為例,消費記錄信息能透視客戶的消費能力,消費頻率,消費興趣點等,渠道信息能透視客戶的渠道偏好,消費支付信息能透視客戶的支付渠道情況,還有很多,如,客戶會否在社交網站上分享消費情況,消費前後有否在搜索引擎上搜索過相關的關鍵詞等等,這些信息(或說數據)從不同的方面表達了客戶的消費過程的方方面面。因此,一般來說,企業用以分析的數據來源越廣越全面,其分析的結果就越立體,越接近於真實。因此,大數據分析意味著企業能夠從不同來源的數據中獲取新的洞察力,並將其與企業業務體系的各個細節相融合,以助力企業在創新或者市場拓展上有所突破。針對「數據量」這個話題,亞馬遜CTO Vogels曾經說過,「在運用大數據時,你會發現數據越大,結果越好。為什麼有的企業在商業上不斷犯錯?那是因為他們沒有足夠的數據對運營和決策提供支持。一旦進入大數據的世界,企業的手中將握有無限可能。」可以預料,在不遠的未來,企業如何通過抓住用戶獲取源源不斷的數據資產將會是一個新的兵家必爭之地。在這個層面上,Facebook、Twitter、Google、Amazon,包括電信運營商等領先企業具有無可比擬的優勢。在大數據的領域里是否數據量越大越好?很多時候我們寫文章,並不是想要去重復某一個眾所周知的事實,而更多的是想從另外一個角度試圖去質疑那些已成事實的事實,並不是想要去推翻,而只是去看這個事實是否存在另外的可能性,雖然很多時候我的那些質疑會漏洞百出,並顯得幼稚可笑,但我覺得一個事物的健康發展需要不同的聲音,而這正是我們寫文章的意義所在。所以,我現在問題是,在大數據的領域里是否數據量越大越好?對於這個問題,我覺得應該分兩個層面來看,第一個層面是,對大數據這個整體而言,數據肯定是越大越好的,多元的數據能讓不同行業,不同組織都可以從大數據中尋找到解決問題的方法,也是基於此,現在越來越多的企業組織通過不同的終端、應用或者其他手段去瘋狂地收集多元的數據,大數據讓人們能有足夠的能力和視野將地球(包括地球上的一切)作為一個整體去看待,這是在從前無法想像的。第二個層面是,對於大數據的具體應用而言,數據量是否越大越好,我卻有不同的看法。我的理解是,在大數據的實際應用中你用以分析的數據量越大,你能得到的東西就越多,而至於得到的那些東西是否是你所需要的,或者對你是否有價值的,沒有人能保證。就如同樹林里有100條路,每條路上都有一些你覺得有意思的東西,如果你有足夠的時間,你可以走遍這100條路,收獲很多有意思的小東西,但不是每一條路都會讓你得到真正有價值的東西。經常做數據分析的朋友應該會有同感,在分析的過程中你會發現不同的數據通過不同的組合導入不同的分析模型會得到很多不同的結果,有時候會有一些很新鮮的結果被發現,這會讓你很驚喜,但大部分這些新鮮的結果最後只會出現在你的微博里,而不會出現在正式的分析報告中,因為分析報告是為解決某一具體問題而存在的,旁枝末節太多會顯得臃腫且容易混淆。所以,我認為,在大數據的具體應用面前,我們先要做的是把「大數據」這個概念忘掉,我們必須弄清楚到底想從大數據中得到什麼,然後帶著目的去收集有用的數據,輸入至分析模型中,直接導向我們想要的結果。否則你將花費大量時間、資源成本去獲取數據,分析數據。我們需要大數據應用是能夠幫助解決問題的行為洞察,而不是試圖研究每一條能夠得到的信息。不得不說,大數據的世界太魔幻了,裡面的誘惑很多,如果你不是帶著明確的目標去應用,你很有可能被陷入在五光十色的誘惑中無法自拔。即使你走進了一座金山,最後你能帶走的最多也只是你能提動的一小口袋。另外,這同時也揭示,為了避免應用者困在「大數據的金山」,大數據必須往下細化,針對不同行業不同領域的特定問題制定不同的解決工具,未來大數據將會遵循消費化模式,核心基礎設施將作為服務或應用程序來提供。
『肆』 如何利用好大數據挖掘潛在用戶
隨著互聯網的發展以及消費市場競爭的加劇:新品牌、新賽道、新渠道、新營銷打法層出不窮。在快速演化的市場格局下,如何建立競爭壁壘、持續保持增長,需要重新立足數字化時代新消費崛起的背景,以洞察消費者體驗為核心,重塑品牌價值,縝密布局增長策略。
只有全面精細地挖掘消費者的心智變化,如消費者的年齡、性別、消費習慣、生活現狀、興趣點等等信息,才能為接下來的內部創新提供正確的方向。優質的消費體驗是提升品牌忠誠度的關鍵,也是企業維持穩定盈利模式的重要基礎。隨著互聯網的發展以及消費市場競爭的加劇,消費者的每一條社媒發布、每一次社交互動、 每一次線上購買, 都反映了消費習慣、態度和行為。收集、分析這些數據並制定行之有效的消費體驗決策是企業的業務剛需,更是撬動增長的差異化打法。
傳統市調——耗時、耗人力、成本高、樣本數量有限,且存在受訪者隱藏真實想法的可能。
社交媒體大數據——符合用戶溝通和線上行為習慣,無需人力、數據可自動全天候採集,數據量和分析維度更豐富、更客觀、可信度更高 。
傳統的用戶數據收集有以下挑戰:
01 線上、線下顧客體驗觸點繁多,碎片化的信息分散於企業各部門,無法利用整合數據快速了解消費需求和顧客體驗,賦能管理決策。
02 傳統調研樣本量小,執行周期長,統計結果往往滯後於消費趨勢,難以轉化為可執行洞察來賦能產品創新和營銷增長。
03市場情報數據源單薄,難以應付快速演化的市場競爭格局,缺乏統一的工具進行競品對標,無法做到知己知彼。
基於實時大數據和機器學習演算法的消費體驗洞察,是真正「以消費者為核心」組織企業資源配 置的有效解決方案。消費體驗洞察能夠幫助企業快速採集和理解消費者需求、產品口碑、競品動態、 新品趨勢和消費熱點,進而驅動營銷、研發、顧客體驗、零售運營等職能部門的專業人士把握商業機遇,敏捷應對快速變化中的消費市場。
第一步,細分人群畫像 —— 了解ta們是誰,在哪兒,喜歡什麼?
最佳實踐案例(食品飲料)
某國際知名連鎖餐飲品牌希望深入了希望了解中國咖啡市場的核心消費群體及細分人群畫像。 運用機器學習建模後,對該品牌及競品相關的逾 120萬條消費者評論和社媒、電商和短視頻討論展開聚類分析,梳理出四大核心消費人群。
DataTouch®️數據分析平台再結合行業品類分布數據,由分析師進一步深入分析出細分人群的飲用環境、口味、 包裝不同痛點訴求,結合品牌優劣勢和人群特點給出針對性建議,為品牌未來精準產品定位和溝通策略提供了有力的決策依據 。
第二步,基於細分人群畫像,指引產品精準溝通策略,捕獲機會細分賽道和差異化產品概念方向定位
在了解市場格局和產品創新方向後,客戶希望了解目標趨勢品類在核心創新方向的細分受眾畫像。運用機器學習建模後,對每個創新方向相關的近千萬條消費者評論和社媒、電商和短視頻討論展開聚類分析,梳理出4-5個核心消費人群。
DataTouch®️數據分析平台再結合行業品類分布數據,品牌競爭格局和顧客體驗滿意度,由分析師進一步深入分析出細分人群賽道的生活方式、場景需求,市場份額,機會定位,和在每一個產品屬性(功效、使用感受、產品形態、包裝等)的NLP深度學習情感分析,提煉未滿足的痛點訴求,結合品牌定位優劣勢和人群特點給出創新產品的差異化建議,為品牌未來精準產品定位和溝通策略提供了有力的數據洞察驅動的決策依據。
『伍』 大數據是怎麼定義的,大數據包括什麼
大數據無疑是近些年來科技領域的一個重要概念,隨著越來越多的企業開始逐漸參與到大數據產業鏈中,大數據自身的定義也在不斷得到豐富和發展。
要想定義大數據,可以從以下三個方面來進行定義:
第一:大數據重新定義了數據的價值。大數據既代表了技術,同時也代表了一個產業,更代表了一個發展的趨勢。大數據技術指的是圍繞數據價值化的一系列相關技術,包括數據的採集、存儲、安全、分析、呈現等等;大數據產業指的是以大數據技術為基礎的產業生態,大數據的產業生態目前尚未完善,還有較大的發展空間;發展趨勢指的是大數據將成為一個重要的創新領域。
第二:大數據為智能化社會奠定了基礎。人工智慧的發展需要三個基礎,分別是數據、算力和演算法,所以大數據對於人工智慧的發展具有重要的意義。目前在人工智慧領域之所以在應用效果上有較為明顯的改善,一個重要的原因是目前有了大量的數據支撐,這會全面促進演算法的訓練過程和驗證過程,從而提升演算法的應用效果。
第三:大數據促進了社會資源的數據化進程。大數據的發展使得數據產生了更大的價值,這個過程會在很大程度上促進社會資源的數據化進程,而更多的社會資源實現數據化之後,大數據的功能邊界也會得到不斷的拓展,從而帶動一系列基於大數據的創新。
最後,大數據之所以重要,一個重要的原因是大數據開辟了一個新的價值領域,大數據將逐漸成為一種重要的生產材料,甚至可以說大數據將是智能化社會的一種新興能源。