‘壹’ 数据采集与分析的指标有哪些
讲解几个数据分析的常用指标
增长研究社
08-04 · 优质科技领域创作者
评价指标是评判数据表现的衡量标准,它是数据分析中非常重要的部分,也是产品经理必须掌握的重点内容。不同的数分任务采用不同的评价指标,对于同一种任务在不同场景下也会采用不同的评价指标。
例如在检测垃圾邮件这个场景中,这是一个典型的二分类问题,所以可以用精确率和AUC曲线这两个指标判断模型的效果;在人脸识别场景中,使用误识率、拒识率和ROC曲线这三个指标评判模型的效果。
不同指标的着重点不一样,一个指标在不同场景下适用性可能不一样,产品经理需要学习不同指标的特性,在项目中根据实际需要选择不同的评价指标。下文中我们重点讲解一些产品经理常用的评价指标。
01 混淆矩阵
混淆矩阵(Confusion Matrix)是评价模型精度的一种标准格式,用一个N行N列的矩阵形式来表示。矩阵每一列代表预测值,每一行代表实际值。
从混淆矩阵的名字不难看出来,它的作用是表明多个类别之间是否有混淆,也就是模型到底判断对了多少个结果,有多少个结果判断错了。同时混淆矩阵能够帮助我们理解准确率、精确率和召回率的区别。
面对一个二分类问题时,通常我们会将结果表示为正类与负类,两者可以随意指定。在上述区分猫狗图片的例子中,我们假定猫为正类、狗为负类。那么在实际进行预测的时候就会出现四种情况,如下图所示:
混淆矩阵
如果这张图片是猫,机器预测出来的结果也是猫,这种情况称为真正类(True Positive,以下简称TP);
如果这张图片是狗,机器预测出来的结果也是狗,这种情况称为真负类(True Negative,以下简称TN);
如果这张图片是猫,机器预测出来的结果是狗,这种情况称为假负类(False Negative,以下简称FN);
如果这张图片是狗,机器预测的结果是猫,则为假正类(False Positive,以下简称FP)。
02 准确率
准确率(Accuracy)是指预测正确的样本占总样本的比例,即模型找到的真正类与真负类与整体预测样本的比例。用公式表示为:
Accuracy=(TP+TN)/(TP+TN+FP+FN)
准确率的取值范围为[0,1],一般情况下取值越大,代表模型预测能力越好。
假设上述猫狗图片分类的例子中,猫狗图片各有500张。最后模型预测的结果中真正类有318个,真负类有415个,假正类有75个,假负类有182个。根据准确率的定义可以算出来目前模型的准确率为:(318+415)/(1000)=0.73。
准确率是评价模型效果最通用的指标之一,描述模型找到“真”类别的能力。也就是说模型准确识别出猫和狗的概率为0.73。但是在使用的时候有两点需要我们注意。首先是准确率没有针对不同类别进行区分,最后求得的准确率对每个类别而言是平等对待的,这种评价方式在很多场景下是有欠缺的。
在本例中,虽然可以看到模型的整体准确率是73.30%,但是从结果中明显可以看出来,模型对于猫的识别效果远不如对狗的识别效果。如果我们模型的目的是为了把猫的图片挑出来,那么这个准确率就有些虚高。
在实际的病患诊断中,计算机诊断出某患者患有癌症,实际上却未患癌症与计算机诊断出某患者未患有癌症,而实际上却患有癌症这两种情况的重要性不一样,不能一概而论。我们需要明确后续是降低误诊率还是提高确诊率,才能让后续模型优化更有针对性。
另外在正负样本极不平衡的情况下,准确率这个指标存在很大的缺陷。例如在银行的全量客户中,要寻找适合推荐信托产品的超高净值客户是非常难的。因为这部分人群要求存款较多、收入较高,比较稀少,往往只有万分之一的概率。
如果一个预测客户适不适合信托产品的模型用准确率去评判,哪怕模型把全部客户预测成负类,即全部都是不适合的情况,那么这个模型的精度也有 99% 以上。
但这个指标就失去了原有的意义,因为无法找到任何高净值的人群。所以我们一再强调,没有万能的指标,根据场景选择合适的指标非常重要。
03 精确率与召回率
精确率(Precision)和召回率(Recall)是一对好兄弟,虽然是两个不同的评价指标,但它们互相影响,通常一起出现。在很多书上又把精确率称为查准率,把召回率称为查全率。
召回率是针对原始样本而言的指标,它表示原始样本中的正例有多少被预测正确。
原始样本中的正例有两种情况,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),这两种情况组成了原始样本所有的正例。计算公式为:
Recall=TP/(TP+FN)
上述模型中识别猫类图片的召回率为:
318/(318+182)=0.63
从这个角度可以看出来总共500张猫的图片,模型只找对了318张,相比准确率而言,召回率更真实地反应了模型的效果。
而精确率是针对预测结果而言的指标,它表示预测为正类的样本中有多少是对的。预测结果为正例有两种情况,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。所以精确率的计算公式为:
Precision=TP/(TP+FP)
即上述模型中识别猫类图片的精确率为:
318/(318+75)=0.81
从这个指标可以看出来模型总共把393张图片预测为猫,其中只有318张图片预测正确。所以模型可能存在欠拟合的情况,将部分狗的照片判断成猫,判断为正类的条件太宽松。下一步优化的时候可以选择适当降低条件以此提高模型效果。如下图所示可以看出精确率与召回率的区别:
精确率与召回率
在理想情况下,我们希望精确率和召回率两者都越高越好。
然而事实上这两者在很多情况下是互相矛盾的。当召回率变高时意味着需要尽可能找到原始样本的正例,因此模型覆盖的数量会变多,模型就更高的几率犯错,将原本不属于该分类的样本也加进来,这就导致精确率下降。
如果我们希望模型尽可能多得找出猫的图片,我们会想办法提高召回率;如果我们希望模型找到的图片少一点但找出来的都是猫的图片,我们会想办法提高精确率。
有两个很典型的场景可以说明这两个指标实际运用的区别,一个是对于地震的预测,我们希望尽可能预测到所有的地震,哪怕这些预测到的地震中只有少数真正发生了地震,在这个时候我们就可以牺牲精确率。
宁愿发出100次警报,但是把10次真实的地震都预测对了,也不希望预测了10次但是只有8次真实的地震被预测出来了,因为只要有1次地震没被发现都会造成巨大的损失。因此这是一个“宁可抓错,不可放过”的场景。
还有一种是垃圾邮件分类的场景,我们希望模型能够尽可能找到所有垃圾邮件,但是我们更不希望把自己正常的邮件被分到垃圾邮件中,哪怕是一封正常的邮件,这会对用户造成很严重的后果。对于少数没有被识别出来的垃圾邮件,其实用户是可以容忍的。
这时候我们宁可少分类成垃圾邮件,但必须确保分的都是对的,这就是一个“宁可放过,不可抓错”的场景。因此在不同的场合中,需要产品经理根据实际情况,自己判断希望是精确率比较高或是召回率比较高。
另外精确率和准确率是比较容易混淆的两个评估指标,两者的核心区别在于:精确率是一个二分类指标,只适用于二分类任务,而准确率能应用于多分类任务。
04 ROC曲线
在逻辑回归的分类模型里,对于正负例的界定,通常会设一个阈值。大于阈值的样本判定为正类,小于阈值的样本为负类。如果我们减小这个阈值,会让更多的样本被识别为正类,从而提高了正类的识别率,但同时也会使得更多的负类被错误识别为正类。
直接调整阈值可以提升或降低模型的精确率和召回率,也就是说使用精确率和召回率这对指标进行评价时会使得模型多了“阈值”这样一个超参数,并且这个超参数会直接影响模型的泛化能力。在数学上正好存在ROC曲线能够帮助我们形象化地展示这个变化过程。
ROC曲线是一个画在二维平面上的曲线,平面的横坐标是假正类率(FalsePositive Rate,简称FPR),计算公式为:
FPR=FP/(FP+TN)
纵坐标是真正类率(True Positive Rate,简称TPR),计算公式为:
TPR=TP/(TP+FN)
对于一个分类器而言,每一个阈值下都会有一个FPR和TPR,这个分类器就可以映射成ROC平面上的一个点。当我们调整这个分类器分类时使用的阈值,就可以得到一个经过(0,0),(1, 1)的曲线,这条曲线就是这个分类器的ROC曲线,如下图所示。
ROC曲线
从图中可以看到,所有算法的ROC曲线都在y=x这条线的上方,因为y=x表示了随机的猜测的概率。所有二分类问题随便猜正确或不正确都是50%的准确率。
一般情况下不存在比随机猜测的准确率更糟糕的算法,因为我们总是可以将错误率转换为正确率。如果一个分类器的准确率是40%,那么将两类的标签互换,准确率就变为了60%。
从图中可以看出来,最理想的分类器是到达(0,1)点的折线,代表模型的准确率达到100%,但是这种情况在现实中是不存在的。如果我们说一个分类器A比分类器B好,实际上我们指的是A的ROC曲线能够完全覆盖B的ROC曲线。如果有交点,只能说明A在某个场合优于B,如下图所示。
分类器A与分类器B的ROC曲线
ROC曲线通常搭配着它对应的比率图一起使用,我们继续用猫狗图片分类的例子说明这两个图怎么看。原本我们猫狗的图片各有500张,如所示图形的X轴代表预测的概率值,Y轴代表观察的数量。
假设我们用一个新的分类器对图片进行分类,分类结果用黑色线代表狗图片的分布,用灰色代表猫图片的分布。模型给出的分值越高代表模型判断这张图片是猫的把握越大,反之模型的给出的分值越低代表模型判断这张图片不是猫的把握越大,也就是说这张图片更有可能是狗。
从下图中可以看出来这个分类器的分类效果还是挺好的,基本上基本把两个物群的分布分开,ROC曲线也非常靠近(0,1)这个点。
某分类器下的ROC曲线
如上图所示,如果将阈值设为0.3,左边划线部分的面积代表模型判断为狗的图片数量有300张左右,并且从图中可以看出来这300张图片全部分类正确。
如果将阈值设为0.5,则左边划线部分的面积代表模型判断为狗的图片有530张左右,从图中重叠部分可以看出来大约有40个分类结果是包含错误分类的,这些错误分类包括实际是狗的图片被分成猫的情况以及实际是猫的图片被分类成狗的情况。
0.3阈值与0.5阈值下的分类结果
这时候我们用另外一个分类器再进行分类,结果如图3-16所示。可以看到整个分类结果向右偏移,同时模型的效果变差,因为两个分类结果重叠的部分变大,无论我们把阈值设在哪里都会比上一个分类器产生更多的错误分类。
假如这时我们采用“宁可抓错,不可放过”的原则把阈值设置为0.8,则右边划线部分只有200个左右不会被分类为狗的图片,其余800个结果全部会被判定为狗的图片,尽管这里面有350个分类结果是错误的结果。
新的分类器下的ROC曲线
从上述例子中看出来,ROC曲线可以帮助我们从图像的角度分辨两个分类结果的分布情况以及选择模型合适的阈值。因此也是很多产品经理比较喜爱的指标之一。
这时很多读者可能会有疑问,既然已经有那么多评价标准,为什么还要使用ROC呢?
原因在于ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化,使用ROC曲线不管是数据集怎么变换,都有直观的展示效果。
05 AUC值
ROC曲线一定程度上可以反映分类器的分类效果,但始终是以图像的形式,不能告诉我们直接的结果。我们希望有一个指标,这个指标越大代表模型的效果越好,越小代表模型的效果越差。于是引入了AUC值(Area Under Curve)的概念。
AUC是数据分析中最常用的模型评价指标之一,实际上AUC代表的含义就是ROC曲线下的面积,如下图所示,它直观地反映了ROC曲线表达的分类能力。AUC值通常大于0.5小于1,AUC(面积)越大的分类器,性能越好。
AUC值的图形展示
AUC值的定义是:从所有正类样本中随机选取一个样本,再从所有负类样本中随机选取一个样本,然后分类器对这两个随机样本进行预测,把正类样本预测为正类的概率为p1,把负类样本预测为正类的概率为p0,p1>p0的概率就等于AUC值。
即AUC值是指随机给定一个正样本和一个负样本,分类器输出该正样本为正的概率值比分类器输出该负样本为正的那个概率值要大的可能性,AUC值越高代表模型的排序能力越强。理论上,如果模型把所有正样本排在负样本之前,此时AUC的取值为1,代表模型完全分类正确,但这种情况在实际中不可能出现。
总结AUC值的四种取值结果有:
AUC=1时,代表采用这个预测模型,不管设定什么阈值都能得出完美预测,模型能够将所有的正样本都排在负样本前面。但是在现实中不存在完美的分类器。
0.5<AUC<1时,代表模型的效果比随机猜测的准确率高,也就是说模型能够将大部分的正样本排在负样本前面,模型有一定的预测价值。
AUC=0.5时,代表模型的预测效果与随机猜测一样,只有50%的准确率。也就是说模型完全不能区分哪些是正样本哪些是负样本,没有预测价值。
AUC<0.5时,代表模型的预测效果比随机猜测还差;但只要将样本正负例互换,结果就能优于随机猜测。
‘贰’ 数据质量的评价指标有哪些
1、对于高速数据,主要看眼形图。
2、对于普通信号,主要看失真度、延迟时间、上升时间、下降时间、超调量、稳定性等。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
‘叁’ 关于模型评估指标,可比性,LOSS,AUC,上下限
模型评估可以从多维度多指标进行评估。
这里只谈论指标。
我们常用的指标,logloss,mse,auc(GAUC)等等。
其他指标包括gini(2*AUC -1),PRauc,KS(max(TPR−FPR)),acc,precision,F1 score。
对于预估分数的指标包括其分布的值,比如CoV(变异系数),std,avg,等等。还有别的指标,如oe等。
首先,需要明确,这些指标有没有可比性,在什么情况下有。
例如,在ctr预估中,logloss,mse在不同问题,不同数据集,不同评估维度下(数据集分片)没有直接可比性。因为logloss的大小和问题的难度成直接关联(问题越简单,logloss越小。这里指 Bayesian Risk ,例如一个问题中,ctr大概有2%,那么你预估所有商品都是0.02时,logloss= - 0.02 * ln 0.02 - 0.98 * ln 0.98 = 0.09,而ctr有50%时,盲猜0.5的logloss为0.67),所以,取决于问题,不可直接比。同理,因为一些数据的变化,不同的数据集,不同数据分片,也不具备可比性。
所以一般比较的对象都在相同的数据集上,我们去对比模型的相对差异。比如a模型比b模型logloss小了2%。
这些指标的含义
一般经验上来说,如果二分类(大多数在 排序 场景运用的话),用auc比较直接。在多分类的情况下,logloss更有参考意义(多分类一般都不是用做排序。在多分类情况下用auc评估的话,要看具体auc的计算实现方式【比如有的包就是直接每个类别单独当作二分类,然后计算多个auc加权起来等】)
我们应该如何选取模型
例如:两个模型,一个auc高一些,但logloss也大一些。另一个auc低,但logloss也低。
即在performance上:
AUC:A>B
LogLoss:B>A
A模型AUC高,说明它在判断哪个更好的方面,有着更好的表现,但是可能它比较“保守”,预估分都接近于正负样本的比例值(比如ctr=0.1,则预估分接近0.1)
B模型Logloss表现好,说明B模型可能比较“大胆”,对于正样本的预估更接近1,负样本预估更接近0,但是在区分谁好谁坏的相对值上,性能差于A
所以我们需要根据我们的场景来理解这俩模型,并根据具体问题作出选择。
深入理解
其他:
‘肆’ 电商数据分析需要统计哪些指标
最重要的就是这几个了:
1 、商品数据分析:电商平台定期都要对商品销售进行分析,比如针对各个不同商品的销量、库存分析、商品评论等。做商品数据分析,可以从时间维度或者从不同商品的类别、价格等多个维度来做分析,这里可以做的数据图表类型很多,比如从时间维度、商品类别、价格维度等;
以上电商相关的可视化图表的制作工具为BDP个人版,可以将各个平台数据统一整合到BDP,然后做好一次分析图表,后期就不需要重复分析啦!
‘伍’ ASO优化如何通过数据判断平台质量及效果评估
ASO是什么?中文意思是应用商店优化,优化的是APP在应用商店中的各项因素,提升APP在应用商店中的搜索排名及榜单表现,从而获得更多的曝光和下载。从本质上讲,ASO是一项非常依赖应用商店的推广方式,熟悉和了解和有效利用应用商店的算法规则是核心,相信未来苹果及主流安卓应用商店会归纳总结一套系统的方法论给到应用开发者,就像网络及谷歌定期发布SEO白皮书一样,但之前我们可以从结果出发,设计一套合理ASO评估标准,可以指导我们ASO推广有的放矢。
如何评估ASO优化方案案例推广效果?
一、ASO数据指标
顾名思义,ASO数据指标包含层层递进关系:关键词覆盖、关键词搜索排名、分类榜单排名、有效下载用户、注册充值等,为什么要到注册充值?因为ASO可以优化的关键词很多,每个词语都有竞争强弱,可以用田忌赛马的策略,但不能只顾规避竞争,因为竞争最强的往往是价值最大的,所以一切为效果负责,有价值的关键词排名、长期获得分类榜单推荐、稳定获取高质量用户是ASO数据指标的重要参考。
其中,有一项指标是隐藏的,就是下载转化率,简单来说,同样一款产品,有无好评就能影响20~30%的转化,同理也包括图标、展示视频、应用截图、副标题、描述等,甚至可以衍生到有无支持imessage&Apple Watch等,凡是有利用提升转化率的因素,都是需要考虑的。
二、ASO体系指标
要明确ASO是一项长期过程,特别是针对苹果AppStore,因为每次版本更新就是一次优化的操作调整时机,替换低效率关键词、根据节假日优化展示设置、更好的用户评论等,因此,数据监测和观察是一项长期工作,通过ASO工具导航可以使用推荐的监测工具,按周进行数据分析是一个比较不错时间点,因为大多数应用更新周期按2周或1个月进行。
除了监测优化,建立良好的ASO体系还需要考虑对外结合,比如与ASM广告投放的互相配合,2015年10月5日苹果竞价搜索广告在美国区正式上线,2017登陆中国,安卓市场的CPT、CPD广告系统也已经很成熟,所以ASO与ASM的有效结合是未来重点,ASO可以往深度发展,ASM从广度出发。
三、ASO风险控制
做ASO最怕什么?请榜、清词、应用下架、封账号等。主要原因是想走捷径,泽思不反对利用成熟的技术进行尝试优化,就像理财投资一样,总有想以小博大的心理,但是守正出奇是比较好的策略,比如建立多个开发者账号,同时要区分账号应用的主次关系,主账号的应用走主流的推广方式,以稳定增长为核心思路,规避所有风险,次账号可以尝试已经被市场上认证的推广方式(据算被认证OK苹果算法一变更就存在风险)。
四、ASO渠道拓展
这块主要是针对ASO外部导量优化,市场上有许多可以导入应用商店的广告投放渠道,比如信息流广告、DSP平台、移动搜索、CPSA渠道等,当使用大家都用的渠道时,在策略一样的情况下,效果可以是预估的,往往没有惊喜,因此,拓展ASO渠道是偶尔可以尝试的,比如游戏应用与直播平台的合作,电商应用与网红的合作,医疗应用与医院下线的结合等,在渠道拓展过程中,“没有饱和的市场,只有饱和的思想”。
五、ASO趋势研究
类似十年前的SEO行业,从最早的黑帽SEO流行到后期白帽SEO主流,再到后期与Social的结合,SEO行业每年都会新的趋势出现,相信ASO行业也会如此,现在有效的推广方式,可能一段时间后就效果不理想,因此,比较有效的方式是与时俱进,ASO属于全球行业,关注海外ASO行业发展会是个不错的方式。
‘陆’ 电商协会的评估主要从哪几个方面
电商协会的评估主要从两方面进行:
1、数据指标:
1、流量。
2、转化率。
3、现金流。
4、毛利。
5、净利。
6、复购率。
2、业务方面:
1、团队。
2、仓储。
3、物流。
4、销售。
5、品牌。
6、当前平台成熟度。
7、核心竞争力是否有。
‘柒’ 评估指标选取的方法
选择合适的指标来描述评估对象,可以真实、准确地反映评估对象的不同侧面。多指标评估指标选择的方法很多,概括起来可分为定性和定量两大类。
(一)定性分析选取指标
定性分析选取评估指标的方法就是运用系统思想,根据评估目的,对评估对象的结构进行深入的系统剖析,把评估对象分解成不同的侧面,在对每一个侧面的属性进行深入分析的基础上提出反映各个侧面的衡量指标,这些指标组合起来构成指标体系。
20世纪70年代兴起的层次分析法是定性分析选取评估指标的典型代表。其基本思想是充分利用人脑能够将复杂问题逐步简化的特点,首先将一个复杂问题分解成几个大的方面,然后对每个方面进一步分解成更细小的方面,如此层次递进,直至分解成可以用数据直接描述的层次。
这一方法要求分析人员对评估对象有深入的了解,必须深入到评估对象的内部,将评估对象分解成不同的侧面,针对这些侧面选取最适合的衡量指标。不同的人由于掌握的知识不同、观察角度不同,以及其他一些主观因素的影响,对同一评估对象、同一评估目的往往有不同的分解方法;甚至同一个人在不同时间对同一评估对象出于同一评估目的的分解方法也不尽相同,选用的指标也有差别,这是这一方法的主要缺陷之一。但这种方法的最大优势是指标与指标之间存在逻辑关系,指标体系能够完整反映评估对象的全貌。不同的人对同一指标体系可以展开充分地讨论,并对指标的层次结构和指标的选择时进行增删,直至大家取得一致意见。
(二)定量分析选取指标
定量分析选取评估指标的方法就是根据指标间的数量关系,运用数学方法筛选出所需指标体系的方法。此方法一般包括三个基本步骤。
1.建立评估预选指标体系
在选取评估指标之前,明确评估对象的基本概念,在定性分析的基础上,选择那些与评估目的相关的指标,构成预选指标集。预选指标集是定量分析的基础,包括的面比较宽,涉及的指标比较多。定量分析就是对预选指标的数量特性进行分析,从而在预选指标中集中选择特性较好的指标构成评估指标体系。
2.对指标特性进行分析
这一步骤采用特定方法量化分析各个指标在多大程度上反映了评估对象的状态。常用的方法有隶属度分析、相关分析、主成分分析、因子分析、聚类分析等。隶属度是指元素属于某个集合的程度。模糊数学认为,社会经济生活中存在大量模糊现象,其概念的外延不清楚,无法用经典集合论来描述。某个元素对某个集合(概念)来说,不能说是否属于、只能说在多大程度上属于这个集合(概念)。如果把评估对象视为一个模糊集合,把每个指标视为一个元素,如果能够计算出每个指标相对于评估对象的隶属度,则隶属度的大小在一定程度上指明了该指标刻画评估对象的程度。
3.确定阀值,筛选指标
根据第二步采用的方法确定一个阀值,保留阀值以上的指标,即可获得一个基本反映原指标集包含的信息量,但指标数量少于原指标集的指标体系。如利用模糊隶属度方法可确定一个临界值,将隶属度大于这一临界值的指标纳入指标体系。有时,采用一种方法得出的指标体系仍然过于庞大,这时,可以采用另一种方法对指标体系继续进行筛选,直至获得满意的结果。
根据阀值确定指标的方法,其优点在于,根据指标的客观统计值做出判断,排除了主观因素的干扰,相同的数据集、相同的方法能够得到相同的指标体系,也就是说比较客观。指标筛选方法在数学上有严密的论证,理论基础可靠,方法科学。但是,这类方法也有明显的缺陷,主要表现在:
(1)这类方法不仅需要收集庞大的初始统计指标数据,而且需要大量的样本数据(即同一套指标体系多个样本点的统计数据)才能对各个指标反映整体状态的水平进行甄别。数据收集与整理的工作量较大。
(2)这类方法对指标去留的筛选依赖于数据的质量。地质资料社会化服务工作的开展,尽管延续时间较长,但主要是专业性服务,公开对外、对社会公众开放程度很低,而且服务统计数据较少。因此,利用指标筛选方法确定指标,尽管方法科学、可靠,结论却值得怀疑。
(3)指标之间的逻辑关系不明确,很难令人接受。即便不考虑数据处理的工作量和数据质量,这类方法筛选出的指标体系的一个共同缺陷是指标过于离散,指标与指标之间没有明确的逻辑关系,很难令人接受。
这类方法指标体系生成于一系列的统计分析或数学分析,不同的人即便对最后形成的统计指标有不同的意见也很难进行调整,因而很难反映不同意见。
鉴于本研究的目标是提出一套可应用的指标体系,因而,本书拟采用定性分析方法,具体地说就是用层次分析方法提出地质资料社会化服务评估指标体系,这种方法有利于充分吸收不同方面的意见,指标体系易于调整,比较适合达到本书的研究目的。
‘捌’ App推广:应该关注哪些数据指标
指标,意为衡量目标的参数,或者预期中打算达到的指数、规格、标准。应用到App推广业务当中指反映该产品的业务水平情况。对于不同类型、不同阶段的应用产品而言,哪些数据是真正值得关注,从而对产品业务水平有较大提升的呢?
这里以第三方统计平台openinstall提供的统计数据类型为例。
安装量:
指通过渠道链接安装的设备数。
注册量:
指安装的所有设备之中,其中存在用户注册行为的设备数。
x天留存数(率):
某一天新增的安装设备中,安装完x天后还有活跃记录的设备数(比例)。
应用新增的安装量和注册量是衡量一个推广渠道质量好坏的最基础指标,另外留存的改变则反映了应用对于用户的吸引力程度的改变,可以根据日、周、月等时间标准进行划分,反映出不同的推广渠道质量随着时间产生的变化。通过结合这些基础数据,可对渠道的推广效果进行评估,从而对推广投放策略进行调整。
活跃设备数:
表示在一个时间段内(某天或某天中的某一小时),至少存在一次打开app行为的设备数;打开app的行为表示用户启动运行app或是app在已经运行的情况下,用户将app从后台切换到前台。
活跃用户数:
一段时间内的活跃设备中,存在注册行为的设备数。
平均打开次数:
一段时间内的所有活跃设备,App被平均打开的次数(打开的次数除以活跃设备数);打开app的行为表示用户启动运行app或是app在已经运行的情况下,用户将app从后台切换到前台。
平均在线时长:
一段时间内的所有活跃设备,App停留在前台的平均时长(总时长除以活跃设备数)。
活跃类指标,一般定义为启动App就算作活跃,而对于注册数量较为看重的应用,必须要存在注册行为才能算作活跃。对于资讯类、社交类、手游类、直播类等这些希望大量用户每天在线的应用,活跃趋势是衡量该类产品是否成功的最重要指标。该数据同时也从侧面反映了用户规模与用户粘度,若某一时间段出现下降趋势,应定制适当的推送策略进行用户召回。
这里的自定义效果点统计意为根据应用类型的不同,对用户的关键性行为所产生的量/次数进行统计。例如游戏类应用,统计用户的充值金额;直播类应用,统计不同直播间的点击次数;新闻资讯类,统计不同文章的阅读数。此指标可用于评估某一新功能添加后,用户对于该功能产生的兴趣高低,且对于产品是否需要进一步完善提供数据参考。
应用版本反映出每一代应用对应的用户使用比例,同样以日、周、月的时间期限划分,可以反映出用户对于新版本是否具有足够的兴趣和接受能力,对于版本每一次更新迭代具有一i顶的参考价值。系统版本和品牌机型的占比,对应App需要着重哪些机型和系统的适配比重。IP分布可用于地推业务的参考方向。
数据指标多种多样,选择正确的指标可以完善产品,保留用户,节省投放成本,创造更好的产品口碑。总之,有效的数据,可以对产品快速有效的发展提供正确的指引。
‘玖’ 电商数据分析要掌握哪些数据指标
【导读】在电商行业当中,通常涉及到六大部门,且各个部门当中,业务框架以运营为导向。那么,在电商数据分析中,我们需要掌握哪些数据指标呢?今天就跟随小编一起来了解下吧!
运营模块
运营的主要职责是达成销售目标,同时控制运营成本。所以在这一模块我们主要关注三个数据指标:业绩达标率、业绩增长率、销售利润额。这三个指标非常好理解,主要是用来综合评估运营水平。
商品模块
这一模块主要涉及两个职能,商品企划和商品运营。
商品企划的主要职能是在一个销售周期内,对商品的品类、价格带、风格、销售进度进行整体把控,避免使用单一产品冲业绩。
商品运营的主要职能是负责商品的上架、入库以及主推策划,通常流程是:测款-养款-爆款-返单。当然,一个店铺也不能打造过多的爆款,爆款的增多会损害品牌调性,到这一旦折扣下降就会引起消费者流失的局面。
市场模块
市场模块是仅次于运营的第二大模块,同时又和运营的工作密不可分。主要包括市场推广投放、会员维护、活动包装等等。
其中,推广是一个店铺的重中之重,也是我们数据分析的主要对象,推广包括包括付费和免费两种渠道,付费渠道比如我们熟知的直通车、钻展等等,免费推广如微博、贴吧等等。定时的进行会员维护会促进会员沉淀,活跃的会员可以有效的节省推广费用。
视觉设计模块
这部分模块中,我们主要分析的还是店铺流量的漏斗转化路径。主要涉及的包括:页面逻辑、标签分类、主推商品。这部内容对应的就是我们常说的流量分析,分析客户的访问路径,并结合漏斗模型,看看那部分的转化对最终的转化率影响最大并进行优化。
关于电商数据分析要掌握哪些数据指标,小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。