『壹』 數據採集與分析的指標有哪些
講解幾個數據分析的常用指標
增長研究社
08-04 · 優質科技領域創作者
評價指標是評判數據表現的衡量標准,它是數據分析中非常重要的部分,也是產品經理必須掌握的重點內容。不同的數分任務採用不同的評價指標,對於同一種任務在不同場景下也會採用不同的評價指標。
例如在檢測垃圾郵件這個場景中,這是一個典型的二分類問題,所以可以用精確率和AUC曲線這兩個指標判斷模型的效果;在人臉識別場景中,使用誤識率、拒識率和ROC曲線這三個指標評判模型的效果。
不同指標的著重點不一樣,一個指標在不同場景下適用性可能不一樣,產品經理需要學習不同指標的特性,在項目中根據實際需要選擇不同的評價指標。下文中我們重點講解一些產品經理常用的評價指標。
01 混淆矩陣
混淆矩陣(Confusion Matrix)是評價模型精度的一種標准格式,用一個N行N列的矩陣形式來表示。矩陣每一列代表預測值,每一行代表實際值。
從混淆矩陣的名字不難看出來,它的作用是表明多個類別之間是否有混淆,也就是模型到底判斷對了多少個結果,有多少個結果判斷錯了。同時混淆矩陣能夠幫助我們理解准確率、精確率和召回率的區別。
面對一個二分類問題時,通常我們會將結果表示為正類與負類,兩者可以隨意指定。在上述區分貓狗圖片的例子中,我們假定貓為正類、狗為負類。那麼在實際進行預測的時候就會出現四種情況,如下圖所示:
混淆矩陣
如果這張圖片是貓,機器預測出來的結果也是貓,這種情況稱為真正類(True Positive,以下簡稱TP);
如果這張圖片是狗,機器預測出來的結果也是狗,這種情況稱為真負類(True Negative,以下簡稱TN);
如果這張圖片是貓,機器預測出來的結果是狗,這種情況稱為假負類(False Negative,以下簡稱FN);
如果這張圖片是狗,機器預測的結果是貓,則為假正類(False Positive,以下簡稱FP)。
02 准確率
准確率(Accuracy)是指預測正確的樣本占總樣本的比例,即模型找到的真正類與真負類與整體預測樣本的比例。用公式表示為:
Accuracy=(TP+TN)/(TP+TN+FP+FN)
准確率的取值范圍為[0,1],一般情況下取值越大,代表模型預測能力越好。
假設上述貓狗圖片分類的例子中,貓狗圖片各有500張。最後模型預測的結果中真正類有318個,真負類有415個,假正類有75個,假負類有182個。根據准確率的定義可以算出來目前模型的准確率為:(318+415)/(1000)=0.73。
准確率是評價模型效果最通用的指標之一,描述模型找到「真」類別的能力。也就是說模型准確識別出貓和狗的概率為0.73。但是在使用的時候有兩點需要我們注意。首先是准確率沒有針對不同類別進行區分,最後求得的准確率對每個類別而言是平等對待的,這種評價方式在很多場景下是有欠缺的。
在本例中,雖然可以看到模型的整體准確率是73.30%,但是從結果中明顯可以看出來,模型對於貓的識別效果遠不如對狗的識別效果。如果我們模型的目的是為了把貓的圖片挑出來,那麼這個准確率就有些虛高。
在實際的病患診斷中,計算機診斷出某患者患有癌症,實際上卻未患癌症與計算機診斷出某患者未患有癌症,而實際上卻患有癌症這兩種情況的重要性不一樣,不能一概而論。我們需要明確後續是降低誤診率還是提高確診率,才能讓後續模型優化更有針對性。
另外在正負樣本極不平衡的情況下,准確率這個指標存在很大的缺陷。例如在銀行的全量客戶中,要尋找適合推薦信託產品的超高凈值客戶是非常難的。因為這部分人群要求存款較多、收入較高,比較稀少,往往只有萬分之一的概率。
如果一個預測客戶適不適合信託產品的模型用准確率去評判,哪怕模型把全部客戶預測成負類,即全部都是不適合的情況,那麼這個模型的精度也有 99% 以上。
但這個指標就失去了原有的意義,因為無法找到任何高凈值的人群。所以我們一再強調,沒有萬能的指標,根據場景選擇合適的指標非常重要。
03 精確率與召回率
精確率(Precision)和召回率(Recall)是一對好兄弟,雖然是兩個不同的評價指標,但它們互相影響,通常一起出現。在很多書上又把精確率稱為查准率,把召回率稱為查全率。
召回率是針對原始樣本而言的指標,它表示原始樣本中的正例有多少被預測正確。
原始樣本中的正例有兩種情況,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN),這兩種情況組成了原始樣本所有的正例。計算公式為:
Recall=TP/(TP+FN)
上述模型中識別貓類圖片的召回率為:
318/(318+182)=0.63
從這個角度可以看出來總共500張貓的圖片,模型只找對了318張,相比准確率而言,召回率更真實地反應了模型的效果。
而精確率是針對預測結果而言的指標,它表示預測為正類的樣本中有多少是對的。預測結果為正例有兩種情況,一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP)。所以精確率的計算公式為:
Precision=TP/(TP+FP)
即上述模型中識別貓類圖片的精確率為:
318/(318+75)=0.81
從這個指標可以看出來模型總共把393張圖片預測為貓,其中只有318張圖片預測正確。所以模型可能存在欠擬合的情況,將部分狗的照片判斷成貓,判斷為正類的條件太寬松。下一步優化的時候可以選擇適當降低條件以此提高模型效果。如下圖所示可以看出精確率與召回率的區別:
精確率與召回率
在理想情況下,我們希望精確率和召回率兩者都越高越好。
然而事實上這兩者在很多情況下是互相矛盾的。當召回率變高時意味著需要盡可能找到原始樣本的正例,因此模型覆蓋的數量會變多,模型就更高的幾率犯錯,將原本不屬於該分類的樣本也加進來,這就導致精確率下降。
如果我們希望模型盡可能多得找出貓的圖片,我們會想辦法提高召回率;如果我們希望模型找到的圖片少一點但找出來的都是貓的圖片,我們會想辦法提高精確率。
有兩個很典型的場景可以說明這兩個指標實際運用的區別,一個是對於地震的預測,我們希望盡可能預測到所有的地震,哪怕這些預測到的地震中只有少數真正發生了地震,在這個時候我們就可以犧牲精確率。
寧願發出100次警報,但是把10次真實的地震都預測對了,也不希望預測了10次但是只有8次真實的地震被預測出來了,因為只要有1次地震沒被發現都會造成巨大的損失。因此這是一個「寧可抓錯,不可放過」的場景。
還有一種是垃圾郵件分類的場景,我們希望模型能夠盡可能找到所有垃圾郵件,但是我們更不希望把自己正常的郵件被分到垃圾郵件中,哪怕是一封正常的郵件,這會對用戶造成很嚴重的後果。對於少數沒有被識別出來的垃圾郵件,其實用戶是可以容忍的。
這時候我們寧可少分類成垃圾郵件,但必須確保分的都是對的,這就是一個「寧可放過,不可抓錯」的場景。因此在不同的場合中,需要產品經理根據實際情況,自己判斷希望是精確率比較高或是召回率比較高。
另外精確率和准確率是比較容易混淆的兩個評估指標,兩者的核心區別在於:精確率是一個二分類指標,只適用於二分類任務,而准確率能應用於多分類任務。
04 ROC曲線
在邏輯回歸的分類模型里,對於正負例的界定,通常會設一個閾值。大於閾值的樣本判定為正類,小於閾值的樣本為負類。如果我們減小這個閾值,會讓更多的樣本被識別為正類,從而提高了正類的識別率,但同時也會使得更多的負類被錯誤識別為正類。
直接調整閾值可以提升或降低模型的精確率和召回率,也就是說使用精確率和召回率這對指標進行評價時會使得模型多了「閾值」這樣一個超參數,並且這個超參數會直接影響模型的泛化能力。在數學上正好存在ROC曲線能夠幫助我們形象化地展示這個變化過程。
ROC曲線是一個畫在二維平面上的曲線,平面的橫坐標是假正類率(FalsePositive Rate,簡稱FPR),計算公式為:
FPR=FP/(FP+TN)
縱坐標是真正類率(True Positive Rate,簡稱TPR),計算公式為:
TPR=TP/(TP+FN)
對於一個分類器而言,每一個閾值下都會有一個FPR和TPR,這個分類器就可以映射成ROC平面上的一個點。當我們調整這個分類器分類時使用的閾值,就可以得到一個經過(0,0),(1, 1)的曲線,這條曲線就是這個分類器的ROC曲線,如下圖所示。
ROC曲線
從圖中可以看到,所有演算法的ROC曲線都在y=x這條線的上方,因為y=x表示了隨機的猜測的概率。所有二分類問題隨便猜正確或不正確都是50%的准確率。
一般情況下不存在比隨機猜測的准確率更糟糕的演算法,因為我們總是可以將錯誤率轉換為正確率。如果一個分類器的准確率是40%,那麼將兩類的標簽互換,准確率就變為了60%。
從圖中可以看出來,最理想的分類器是到達(0,1)點的折線,代表模型的准確率達到100%,但是這種情況在現實中是不存在的。如果我們說一個分類器A比分類器B好,實際上我們指的是A的ROC曲線能夠完全覆蓋B的ROC曲線。如果有交點,只能說明A在某個場合優於B,如下圖所示。
分類器A與分類器B的ROC曲線
ROC曲線通常搭配著它對應的比率圖一起使用,我們繼續用貓狗圖片分類的例子說明這兩個圖怎麼看。原本我們貓狗的圖片各有500張,如所示圖形的X軸代表預測的概率值,Y軸代表觀察的數量。
假設我們用一個新的分類器對圖片進行分類,分類結果用黑色線代表狗圖片的分布,用灰色代表貓圖片的分布。模型給出的分值越高代表模型判斷這張圖片是貓的把握越大,反之模型的給出的分值越低代表模型判斷這張圖片不是貓的把握越大,也就是說這張圖片更有可能是狗。
從下圖中可以看出來這個分類器的分類效果還是挺好的,基本上基本把兩個物群的分布分開,ROC曲線也非常靠近(0,1)這個點。
某分類器下的ROC曲線
如上圖所示,如果將閾值設為0.3,左邊劃線部分的面積代表模型判斷為狗的圖片數量有300張左右,並且從圖中可以看出來這300張圖片全部分類正確。
如果將閾值設為0.5,則左邊劃線部分的面積代表模型判斷為狗的圖片有530張左右,從圖中重疊部分可以看出來大約有40個分類結果是包含錯誤分類的,這些錯誤分類包括實際是狗的圖片被分成貓的情況以及實際是貓的圖片被分類成狗的情況。
0.3閾值與0.5閾值下的分類結果
這時候我們用另外一個分類器再進行分類,結果如圖3-16所示。可以看到整個分類結果向右偏移,同時模型的效果變差,因為兩個分類結果重疊的部分變大,無論我們把閾值設在哪裡都會比上一個分類器產生更多的錯誤分類。
假如這時我們採用「寧可抓錯,不可放過」的原則把閾值設置為0.8,則右邊劃線部分只有200個左右不會被分類為狗的圖片,其餘800個結果全部會被判定為狗的圖片,盡管這裡面有350個分類結果是錯誤的結果。
新的分類器下的ROC曲線
從上述例子中看出來,ROC曲線可以幫助我們從圖像的角度分辨兩個分類結果的分布情況以及選擇模型合適的閾值。因此也是很多產品經理比較喜愛的指標之一。
這時很多讀者可能會有疑問,既然已經有那麼多評價標准,為什麼還要使用ROC呢?
原因在於ROC曲線有個很好的特性:當測試集中的正負樣本的分布變換的時候,ROC曲線能夠保持不變。在實際的數據集中經常會出現樣本類不平衡,即正負樣本比例差距較大,而且測試數據中的正負樣本也可能隨著時間變化,使用ROC曲線不管是數據集怎麼變換,都有直觀的展示效果。
05 AUC值
ROC曲線一定程度上可以反映分類器的分類效果,但始終是以圖像的形式,不能告訴我們直接的結果。我們希望有一個指標,這個指標越大代表模型的效果越好,越小代表模型的效果越差。於是引入了AUC值(Area Under Curve)的概念。
AUC是數據分析中最常用的模型評價指標之一,實際上AUC代表的含義就是ROC曲線下的面積,如下圖所示,它直觀地反映了ROC曲線表達的分類能力。AUC值通常大於0.5小於1,AUC(面積)越大的分類器,性能越好。
AUC值的圖形展示
AUC值的定義是:從所有正類樣本中隨機選取一個樣本,再從所有負類樣本中隨機選取一個樣本,然後分類器對這兩個隨機樣本進行預測,把正類樣本預測為正類的概率為p1,把負類樣本預測為正類的概率為p0,p1>p0的概率就等於AUC值。
即AUC值是指隨機給定一個正樣本和一個負樣本,分類器輸出該正樣本為正的概率值比分類器輸出該負樣本為正的那個概率值要大的可能性,AUC值越高代表模型的排序能力越強。理論上,如果模型把所有正樣本排在負樣本之前,此時AUC的取值為1,代表模型完全分類正確,但這種情況在實際中不可能出現。
總結AUC值的四種取值結果有:
AUC=1時,代表採用這個預測模型,不管設定什麼閾值都能得出完美預測,模型能夠將所有的正樣本都排在負樣本前面。但是在現實中不存在完美的分類器。
0.5<AUC<1時,代表模型的效果比隨機猜測的准確率高,也就是說模型能夠將大部分的正樣本排在負樣本前面,模型有一定的預測價值。
AUC=0.5時,代表模型的預測效果與隨機猜測一樣,只有50%的准確率。也就是說模型完全不能區分哪些是正樣本哪些是負樣本,沒有預測價值。
AUC<0.5時,代表模型的預測效果比隨機猜測還差;但只要將樣本正負例互換,結果就能優於隨機猜測。
『貳』 數據質量的評價指標有哪些
1、對於高速數據,主要看眼形圖。
2、對於普通信號,主要看失真度、延遲時間、上升時間、下降時間、超調量、穩定性等。
數據是組織最具價值的資產之一。企業的數據質量與業務績效之間存在著直接聯系,高質量的數據可以使公司保持競爭力並在經濟動盪時期立於不敗之地。有了普遍深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。
『叄』 關於模型評估指標,可比性,LOSS,AUC,上下限
模型評估可以從多維度多指標進行評估。
這里只談論指標。
我們常用的指標,logloss,mse,auc(GAUC)等等。
其他指標包括gini(2*AUC -1),PRauc,KS(max(TPR−FPR)),acc,precision,F1 score。
對於預估分數的指標包括其分布的值,比如CoV(變異系數),std,avg,等等。還有別的指標,如oe等。
首先,需要明確,這些指標有沒有可比性,在什麼情況下有。
例如,在ctr預估中,logloss,mse在不同問題,不同數據集,不同評估維度下(數據集分片)沒有直接可比性。因為logloss的大小和問題的難度成直接關聯(問題越簡單,logloss越小。這里指 Bayesian Risk ,例如一個問題中,ctr大概有2%,那麼你預估所有商品都是0.02時,logloss= - 0.02 * ln 0.02 - 0.98 * ln 0.98 = 0.09,而ctr有50%時,盲猜0.5的logloss為0.67),所以,取決於問題,不可直接比。同理,因為一些數據的變化,不同的數據集,不同數據分片,也不具備可比性。
所以一般比較的對象都在相同的數據集上,我們去對比模型的相對差異。比如a模型比b模型logloss小了2%。
這些指標的含義
一般經驗上來說,如果二分類(大多數在 排序 場景運用的話),用auc比較直接。在多分類的情況下,logloss更有參考意義(多分類一般都不是用做排序。在多分類情況下用auc評估的話,要看具體auc的計算實現方式【比如有的包就是直接每個類別單獨當作二分類,然後計算多個auc加權起來等】)
我們應該如何選取模型
例如:兩個模型,一個auc高一些,但logloss也大一些。另一個auc低,但logloss也低。
即在performance上:
AUC:A>B
LogLoss:B>A
A模型AUC高,說明它在判斷哪個更好的方面,有著更好的表現,但是可能它比較「保守」,預估分都接近於正負樣本的比例值(比如ctr=0.1,則預估分接近0.1)
B模型Logloss表現好,說明B模型可能比較「大膽」,對於正樣本的預估更接近1,負樣本預估更接近0,但是在區分誰好誰壞的相對值上,性能差於A
所以我們需要根據我們的場景來理解這倆模型,並根據具體問題作出選擇。
深入理解
其他:
『肆』 電商數據分析需要統計哪些指標
最重要的就是這幾個了:
1 、商品數據分析:電商平台定期都要對商品銷售進行分析,比如針對各個不同商品的銷量、庫存分析、商品評論等。做商品數據分析,可以從時間維度或者從不同商品的類別、價格等多個維度來做分析,這里可以做的數據圖表類型很多,比如從時間維度、商品類別、價格維度等;
以上電商相關的可視化圖表的製作工具為BDP個人版,可以將各個平台數據統一整合到BDP,然後做好一次分析圖表,後期就不需要重復分析啦!
『伍』 ASO優化如何通過數據判斷平台質量及效果評估
ASO是什麼?中文意思是應用商店優化,優化的是APP在應用商店中的各項因素,提升APP在應用商店中的搜索排名及榜單表現,從而獲得更多的曝光和下載。從本質上講,ASO是一項非常依賴應用商店的推廣方式,熟悉和了解和有效利用應用商店的演算法規則是核心,相信未來蘋果及主流安卓應用商店會歸納總結一套系統的方法論給到應用開發者,就像網路及谷歌定期發布SEO白皮書一樣,但之前我們可以從結果出發,設計一套合理ASO評估標准,可以指導我們ASO推廣有的放矢。
如何評估ASO優化方案案例推廣效果?
一、ASO數據指標
顧名思義,ASO數據指標包含層層遞進關系:關鍵詞覆蓋、關鍵詞搜索排名、分類榜單排名、有效下載用戶、注冊充值等,為什麼要到注冊充值?因為ASO可以優化的關鍵詞很多,每個詞語都有競爭強弱,可以用田忌賽馬的策略,但不能只顧規避競爭,因為競爭最強的往往是價值最大的,所以一切為效果負責,有價值的關鍵詞排名、長期獲得分類榜單推薦、穩定獲取高質量用戶是ASO數據指標的重要參考。
其中,有一項指標是隱藏的,就是下載轉化率,簡單來說,同樣一款產品,有無好評就能影響20~30%的轉化,同理也包括圖標、展示視頻、應用截圖、副標題、描述等,甚至可以衍生到有無支持imessage&Apple Watch等,凡是有利用提升轉化率的因素,都是需要考慮的。
二、ASO體系指標
要明確ASO是一項長期過程,特別是針對蘋果AppStore,因為每次版本更新就是一次優化的操作調整時機,替換低效率關鍵詞、根據節假日優化展示設置、更好的用戶評論等,因此,數據監測和觀察是一項長期工作,通過ASO工具導航可以使用推薦的監測工具,按周進行數據分析是一個比較不錯時間點,因為大多數應用更新周期按2周或1個月進行。
除了監測優化,建立良好的ASO體系還需要考慮對外結合,比如與ASM廣告投放的互相配合,2015年10月5日蘋果競價搜索廣告在美國區正式上線,2017登陸中國,安卓市場的CPT、CPD廣告系統也已經很成熟,所以ASO與ASM的有效結合是未來重點,ASO可以往深度發展,ASM從廣度出發。
三、ASO風險控制
做ASO最怕什麼?請榜、清詞、應用下架、封賬號等。主要原因是想走捷徑,澤思不反對利用成熟的技術進行嘗試優化,就像理財投資一樣,總有想以小博大的心理,但是守正出奇是比較好的策略,比如建立多個開發者賬號,同時要區分賬號應用的主次關系,主賬號的應用走主流的推廣方式,以穩定增長為核心思路,規避所有風險,次賬號可以嘗試已經被市場上認證的推廣方式(據算被認證OK蘋果演算法一變更就存在風險)。
四、ASO渠道拓展
這塊主要是針對ASO外部導量優化,市場上有許多可以導入應用商店的廣告投放渠道,比如信息流廣告、DSP平台、移動搜索、CPSA渠道等,當使用大家都用的渠道時,在策略一樣的情況下,效果可以是預估的,往往沒有驚喜,因此,拓展ASO渠道是偶爾可以嘗試的,比如游戲應用與直播平台的合作,電商應用與網紅的合作,醫療應用與醫院下線的結合等,在渠道拓展過程中,「沒有飽和的市場,只有飽和的思想」。
五、ASO趨勢研究
類似十年前的SEO行業,從最早的黑帽SEO流行到後期白帽SEO主流,再到後期與Social的結合,SEO行業每年都會新的趨勢出現,相信ASO行業也會如此,現在有效的推廣方式,可能一段時間後就效果不理想,因此,比較有效的方式是與時俱進,ASO屬於全球行業,關注海外ASO行業發展會是個不錯的方式。
『陸』 電商協會的評估主要從哪幾個方面
電商協會的評估主要從兩方面進行:
1、數據指標:
1、流量。
2、轉化率。
3、現金流。
4、毛利。
5、凈利。
6、復購率。
2、業務方面:
1、團隊。
2、倉儲。
3、物流。
4、銷售。
5、品牌。
6、當前平台成熟度。
7、核心競爭力是否有。
『柒』 評估指標選取的方法
選擇合適的指標來描述評估對象,可以真實、准確地反映評估對象的不同側面。多指標評估指標選擇的方法很多,概括起來可分為定性和定量兩大類。
(一)定性分析選取指標
定性分析選取評估指標的方法就是運用系統思想,根據評估目的,對評估對象的結構進行深入的系統剖析,把評估對象分解成不同的側面,在對每一個側面的屬性進行深入分析的基礎上提出反映各個側面的衡量指標,這些指標組合起來構成指標體系。
20世紀70年代興起的層次分析法是定性分析選取評估指標的典型代表。其基本思想是充分利用人腦能夠將復雜問題逐步簡化的特點,首先將一個復雜問題分解成幾個大的方面,然後對每個方面進一步分解成更細小的方面,如此層次遞進,直至分解成可以用數據直接描述的層次。
這一方法要求分析人員對評估對象有深入的了解,必須深入到評估對象的內部,將評估對象分解成不同的側面,針對這些側面選取最適合的衡量指標。不同的人由於掌握的知識不同、觀察角度不同,以及其他一些主觀因素的影響,對同一評估對象、同一評估目的往往有不同的分解方法;甚至同一個人在不同時間對同一評估對象出於同一評估目的的分解方法也不盡相同,選用的指標也有差別,這是這一方法的主要缺陷之一。但這種方法的最大優勢是指標與指標之間存在邏輯關系,指標體系能夠完整反映評估對象的全貌。不同的人對同一指標體系可以展開充分地討論,並對指標的層次結構和指標的選擇時進行增刪,直至大家取得一致意見。
(二)定量分析選取指標
定量分析選取評估指標的方法就是根據指標間的數量關系,運用數學方法篩選出所需指標體系的方法。此方法一般包括三個基本步驟。
1.建立評估預選指標體系
在選取評估指標之前,明確評估對象的基本概念,在定性分析的基礎上,選擇那些與評估目的相關的指標,構成預選指標集。預選指標集是定量分析的基礎,包括的面比較寬,涉及的指標比較多。定量分析就是對預選指標的數量特性進行分析,從而在預選指標中集中選擇特性較好的指標構成評估指標體系。
2.對指標特性進行分析
這一步驟採用特定方法量化分析各個指標在多大程度上反映了評估對象的狀態。常用的方法有隸屬度分析、相關分析、主成分分析、因子分析、聚類分析等。隸屬度是指元素屬於某個集合的程度。模糊數學認為,社會經濟生活中存在大量模糊現象,其概念的外延不清楚,無法用經典集合論來描述。某個元素對某個集合(概念)來說,不能說是否屬於、只能說在多大程度上屬於這個集合(概念)。如果把評估對象視為一個模糊集合,把每個指標視為一個元素,如果能夠計算出每個指標相對於評估對象的隸屬度,則隸屬度的大小在一定程度上指明了該指標刻畫評估對象的程度。
3.確定閥值,篩選指標
根據第二步採用的方法確定一個閥值,保留閥值以上的指標,即可獲得一個基本反映原指標集包含的信息量,但指標數量少於原指標集的指標體系。如利用模糊隸屬度方法可確定一個臨界值,將隸屬度大於這一臨界值的指標納入指標體系。有時,採用一種方法得出的指標體系仍然過於龐大,這時,可以採用另一種方法對指標體系繼續進行篩選,直至獲得滿意的結果。
根據閥值確定指標的方法,其優點在於,根據指標的客觀統計值做出判斷,排除了主觀因素的干擾,相同的數據集、相同的方法能夠得到相同的指標體系,也就是說比較客觀。指標篩選方法在數學上有嚴密的論證,理論基礎可靠,方法科學。但是,這類方法也有明顯的缺陷,主要表現在:
(1)這類方法不僅需要收集龐大的初始統計指標數據,而且需要大量的樣本數據(即同一套指標體系多個樣本點的統計數據)才能對各個指標反映整體狀態的水平進行甄別。數據收集與整理的工作量較大。
(2)這類方法對指標去留的篩選依賴於數據的質量。地質資料社會化服務工作的開展,盡管延續時間較長,但主要是專業性服務,公開對外、對社會公眾開放程度很低,而且服務統計數據較少。因此,利用指標篩選方法確定指標,盡管方法科學、可靠,結論卻值得懷疑。
(3)指標之間的邏輯關系不明確,很難令人接受。即便不考慮數據處理的工作量和數據質量,這類方法篩選出的指標體系的一個共同缺陷是指標過於離散,指標與指標之間沒有明確的邏輯關系,很難令人接受。
這類方法指標體系生成於一系列的統計分析或數學分析,不同的人即便對最後形成的統計指標有不同的意見也很難進行調整,因而很難反映不同意見。
鑒於本研究的目標是提出一套可應用的指標體系,因而,本書擬採用定性分析方法,具體地說就是用層次分析方法提出地質資料社會化服務評估指標體系,這種方法有利於充分吸收不同方面的意見,指標體系易於調整,比較適合達到本書的研究目的。
『捌』 App推廣:應該關注哪些數據指標
指標,意為衡量目標的參數,或者預期中打算達到的指數、規格、標准。應用到App推廣業務當中指反映該產品的業務水平情況。對於不同類型、不同階段的應用產品而言,哪些數據是真正值得關注,從而對產品業務水平有較大提升的呢?
這里以第三方統計平台openinstall提供的統計數據類型為例。
安裝量:
指通過渠道鏈接安裝的設備數。
注冊量:
指安裝的所有設備之中,其中存在用戶注冊行為的設備數。
x天留存數(率):
某一天新增的安裝設備中,安裝完x天後還有活躍記錄的設備數(比例)。
應用新增的安裝量和注冊量是衡量一個推廣渠道質量好壞的最基礎指標,另外留存的改變則反映了應用對於用戶的吸引力程度的改變,可以根據日、周、月等時間標准進行劃分,反映出不同的推廣渠道質量隨著時間產生的變化。通過結合這些基礎數據,可對渠道的推廣效果進行評估,從而對推廣投放策略進行調整。
活躍設備數:
表示在一個時間段內(某天或某天中的某一小時),至少存在一次打開app行為的設備數;打開app的行為表示用戶啟動運行app或是app在已經運行的情況下,用戶將app從後台切換到前台。
活躍用戶數:
一段時間內的活躍設備中,存在注冊行為的設備數。
平均打開次數:
一段時間內的所有活躍設備,App被平均打開的次數(打開的次數除以活躍設備數);打開app的行為表示用戶啟動運行app或是app在已經運行的情況下,用戶將app從後台切換到前台。
平均在線時長:
一段時間內的所有活躍設備,App停留在前台的平均時長(總時長除以活躍設備數)。
活躍類指標,一般定義為啟動App就算作活躍,而對於注冊數量較為看重的應用,必須要存在注冊行為才能算作活躍。對於資訊類、社交類、手游類、直播類等這些希望大量用戶每天在線的應用,活躍趨勢是衡量該類產品是否成功的最重要指標。該數據同時也從側面反映了用戶規模與用戶粘度,若某一時間段出現下降趨勢,應定製適當的推送策略進行用戶召回。
這里的自定義效果點統計意為根據應用類型的不同,對用戶的關鍵性行為所產生的量/次數進行統計。例如游戲類應用,統計用戶的充值金額;直播類應用,統計不同直播間的點擊次數;新聞資訊類,統計不同文章的閱讀數。此指標可用於評估某一新功能添加後,用戶對於該功能產生的興趣高低,且對於產品是否需要進一步完善提供數據參考。
應用版本反映出每一代應用對應的用戶使用比例,同樣以日、周、月的時間期限劃分,可以反映出用戶對於新版本是否具有足夠的興趣和接受能力,對於版本每一次更新迭代具有一i頂的參考價值。系統版本和品牌機型的佔比,對應App需要著重哪些機型和系統的適配比重。IP分布可用於地推業務的參考方向。
數據指標多種多樣,選擇正確的指標可以完善產品,保留用戶,節省投放成本,創造更好的產品口碑。總之,有效的數據,可以對產品快速有效的發展提供正確的指引。
『玖』 電商數據分析要掌握哪些數據指標
【導讀】在電商行業當中,通常涉及到六大部門,且各個部門當中,業務框架以運營為導向。那麼,在電商數據分析中,我們需要掌握哪些數據指標呢?今天就跟隨小編一起來了解下吧!
運營模塊
運營的主要職責是達成銷售目標,同時控制運營成本。所以在這一模塊我們主要關注三個數據指標:業績達標率、業績增長率、銷售利潤額。這三個指標非常好理解,主要是用來綜合評估運營水平。
商品模塊
這一模塊主要涉及兩個職能,商品企劃和商品運營。
商品企劃的主要職能是在一個銷售周期內,對商品的品類、價格帶、風格、銷售進度進行整體把控,避免使用單一產品沖業績。
商品運營的主要職能是負責商品的上架、入庫以及主推策劃,通常流程是:測款-養款-爆款-返單。當然,一個店鋪也不能打造過多的爆款,爆款的增多會損害品牌調性,到這一旦折扣下降就會引起消費者流失的局面。
市場模塊
市場模塊是僅次於運營的第二大模塊,同時又和運營的工作密不可分。主要包括市場推廣投放、會員維護、活動包裝等等。
其中,推廣是一個店鋪的重中之重,也是我們數據分析的主要對象,推廣包括包括付費和免費兩種渠道,付費渠道比如我們熟知的直通車、鑽展等等,免費推廣如微博、貼吧等等。定時的進行會員維護會促進會員沉澱,活躍的會員可以有效的節省推廣費用。
視覺設計模塊
這部分模塊中,我們主要分析的還是店鋪流量的漏斗轉化路徑。主要涉及的包括:頁面邏輯、標簽分類、主推商品。這部內容對應的就是我們常說的流量分析,分析客戶的訪問路徑,並結合漏斗模型,看看那部分的轉化對最終的轉化率影響最大並進行優化。
關於電商數據分析要掌握哪些數據指標,小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。