‘壹’ 如何建立数据分析的思维框架
曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:
不是我觉得,而是数据证明
这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用。
作为个人,应该如何建立数据分析思维呢?
丨建立你的指标体系
在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:
如果你不能衡量它,那么你就不能有效增长它。
所谓衡量,就是需要统一标准来定义和评价业务。这个标准就是指标。假设隔壁老王开了一家水果铺子,你问他每天生意怎么样,他可以回答卖的不错,很好,最近不景气。这些都是很虚的词,因为他认为卖的不错也许是卖了 50 个,而你认为的卖的不错,是卖了 100 。
这就是“我觉得”造成的认知陷阱。将案例放到公司时,会遇到更多的问题:若有一位运营和你说,产品表现不错,因为每天都有很多人评价和称赞,还给你看了几个截图。而另外一位运营说,产品有些问题,推的活动商品卖的不好,你应该相信谁呢?
其实谁都很难相信,这些众口异词的判断都是因为缺乏数据分析思维造成的。
老王想要描述生意,他应该使用销量,这就是他的指标,互联网想要描述产品,也应该使用活跃率、使用率、转化率等指标。
如果你不能用指标描述业务,那么你就不能有效增长它。
了解和使用指标是数据分析思维的第一步,接下来你需要建立指标体系,孤立的指标发挥不出数据的价值。和分析思维一样,指标也能结构化,也应该用结构化。
我们看一下互联网的产品,一个用户从开始使用到离开,都会经历这些环节步骤。电商APP还是内容平台,都是雷同的。想一想,你会需要用到哪些指标?
而下面这张图,解释了什么是指标化,这就是有无数据分析思维的差异,也是典型的数据化运营,有空可以再深入讲这块。
指标体系没有放之四海而皆准的模板,不同业务形态有不同的指标体系。移动 APP 和网站不一样, SaaS 和电子商务不一样,低频消费和高频消费不一样。好比一款婚庆相关的 APP ,不需要考虑复购率指标;互联网金融,必须要风控指标;电子商务,卖家和买家的指标各不一样。
这些需要不同行业经验和业务知识去学习掌握,那有没有通用的技巧和注意事项呢?
丨好指标与坏指标
不是所有的指标都是好的。这是初出茅庐者常犯的错误。我们继续回到老王的水果铺子,来思考一下,销量这个指标究竟是不是好的?
丨最近物价上涨,老王顺应调高了水果价格,又不敢涨的提高,虽然水果销量没有大变化,但老王发现一个月下来没赚多少,私房钱都不够存。
丨老王这个月的各类水果销量有 2000 ,但最后还是亏本了,仔细研究后发现,虽然销量高,但是水果库存也高,每个月都有几百单位的水果滞销最后过期亏本。
这两个例子都能说明只看销量是一件多不靠谱的事情。销量是一个衡量指标,但不是好指标。老王这种个体经营户,应该以水果铺子的利润为核心要素。
好指标应该是核心驱动指标。虽然指标很重要,但是有些指标需要更重要。就像销量和利润,用户数和活跃用户数,后者都比前者重要。
核心指标不只是写在周报的数字,而是整个运营团队、产品团队乃至研发团队都统一努力的目标。
核心驱动指标和公司发展关联,是公司在一个阶段内的重点方向。记住是一个阶段,不同时期的核心驱动指标不一样。不同业务的核心驱动指标也不一样。
互联网公司常见的核心指标是用户数和活跃率,用户数代表市场的体量和占有,活跃率代表产品的健康度,但这是发展阶段的核心指标。在产品 1.0 期间,我们应把注意力放到打磨产品上,在大推广前提高产品质量,这时留存率是一个核心指标。而在有一定用户基数的产品后期,商业化比活跃重要,我们会关注钱相关的指标,比如广告点击率、利润率等。
核心驱动指标一般是公司整体的目标,若从个人的岗位职责看,也可以找到自己的核心指标。比如内容运营可以关注阅读数和阅读时长。
核心驱动指标一定能给公司和个人带来最大优势和利益,记得二八法则么?20%的指标一定能带来 80% 的效果,这 20% 的指标就是核心。
另外一方面,好的指标还有一个特性,它应该是比率或者比例。
拿活跃用户数说明就懂了,我们活跃用户有 10 万,这能说明什么呢?这说明不了什么。如果产品本身有千万级别的注册用户,那么 10 万用户说明非常不健康,产品在衰退期。如果产品只拥有四五十万用户,那么说明产品的粘性很高。
正因为单纯的活跃用户数没有多大意义,所以运营和产品会更关注活跃率。这个指标就是一个比率,将活跃用户数除以总用户数所得。所以在设立指标时,我们都尽量想它能不能是比率。
坏指标有哪些呢?
其一是虚荣指标,它没有任何的实际意义。
产品在应用商店有几十万的曝光量,有意义吗?没有,我需要的是实际下载。下载了意义大吗?也不大,我希望用户注册成功。曝光量和下载量都是虚荣指标,只是虚荣程度不一样。
新媒体都追求微信公众号阅读数,如果靠阅读数做广告,那么阅读数有意义,如果靠图文卖商品,那么更应该关注转化率和商品销量,毕竟一个夸张的标题就能带来很高的阅读量,此时的阅读量是虚荣指标。可惜很多老板还是孜孜不倦的追求 10W+ ,哪怕刷量。
虚荣指标是没有意义的指标,往往它会很好看,能够粉饰运营和产品的工作绩效,但我们要避免使用。
第二个坏指标是后验性指标,它往往只能反应已经发生的事情。
比如我有一个流失用户的定义:三个月没有打开APP就算做流失。那么运营每天统计的流失用户数,都是很久没有打开过的,以时效性看,已经发生很久了,也很难通过措施挽回。我知道曾经因为某个不好的运营手段伤害了用户,可是还有用吗?
活动运营的 ROI(投资回报率)也是后验性指标,一个活动付出成本后才能知道其收益。可是成本已经支出,活动的好与坏也注定了。活动周期长,还能有调整余地。活动短期的话,这指标只能用作复盘,但不能驱动业务。
第三个坏指标是复杂性指标,它将数据分析陷于一堆指标造成的陷阱中。
指标能细分和拆解,比如活跃率可以细分成日活跃率、周活跃率、月活跃率、老用户活跃率等。数据分析应该根据具体的情况选择指标,如果是天气类工具,可以选择日活跃率,如果是社交 APP ,可以选择周活跃率,更低频的产品则是月活跃率。
每个产品都有适合它的几个指标,不要一股脑的装一堆指标上去,当你准备了二三十个指标用于分析,会发现无从下手。
丨指标结构
既然指标太多太复杂不好,那么应该如何正确的选择指标呢?
和分析思维的金字塔结构一样,指标也有固有结构,呈现树状。指标结构的构建核心是以业务流程为思路,以结构为导向。
假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?
我们把金字塔思维转换一下,就成了数据分析方法了。
从内容运营的流程开始,它是:内容收集—内容编辑发布—用户浏览—用户点击—用户阅读—用户评论或转发—继续下一篇浏览。
这是一个标准的流程,每个流程都有指标可以建立。内容收集可以建立热点指数,看哪一篇内容比较火。用户浏览用户点击则是标准的 PV 和 UV 统计,用户阅读是阅读时长。
从流程的角度搭建指标框架,可以全面的囊括用户相关数据,无有遗漏。
这套框架列举的指标,依旧要遵循指标原则:需要有核心驱动指标。移除虚荣指标,适当的进行删减,不要为添加指标而添加指标。
丨维度分析法
当你有了指标,可以着手进行分析,数据分析大体可以分三类,第一类是利用维度分析数据,第二类是使用统计学知识如数据分布假设检验,最后一类是使用机器学习。我们先了解一下维度分析法。
维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度。
当我们有了维度后,就能够通过不同的维度组合,形成数据模型。数据模型不是一个高深的概念,它就是一个数据立方体。
上图就是三个维度组成的数据模型/数据立方体。分别是产品类型、时间、地区。我们既能获得电子产品在上海地区的 2010 二季度的销量,也能知道书籍在江苏地区的 2010 一季度销量。
数据模型将复杂的数据以结构化的形式有序的组织起来。我们之前谈到的指标,都可以作为维度使用。下面是范例:
丨将用户类型、活跃度、时间三个维度组合,观察不同用户群体在产品上的使用情况,是否A群体使用的时长更明显?
丨将商品类型、订单金额、地区三个维度组合,观察不同地区的不同商品是否存在销量差异?
数据模型可以从不同的角度和层面来观察数据,这样提高了分析的灵活性,满足不同的分析需求、这个过程叫做 OLAP(联机分析处理)。当然它涉及到更复杂的数据建模和数据仓库等,我们不用详细知道。
数据模型还有几种常见的技巧、叫做钻取、上卷、切片。
选取就是将维度继续细分。比如浙江省细分成杭州市、温州市、宁波市等, 2010 年一季度变成 1 月、 2 月、 3 月。上卷则是钻取的相反概念,将维度聚合,比如浙江、上海、江苏聚合成浙江沪维度。切片是选中特定的维度,比如只选上海维度、或者只选 2010 年一季度维度。因为数据立方体是多维的,但我们观察和比较数据只能在二维、即表格中进行。
上图的树状结构代表钻取(source 和 time 的细分),然后通过对 Route 的 air 切片获得具体数据。
聪明的你可能已经想到,我们常用的数据透视表就是一种维度分析,将需要分析的维度放到行列组合进行求和、计数、平均值等计算。放一张曾经用到的案例图片:用城市维度和工作年限维度,计算平均工资。
除了 Excel 、BI 、R 、Python 都能用维度分析法。BI 是相对最简便的。
谈到维度法,想要强调的是分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比,比如不同地区维度的对比,比如产品类型的区别对比,比如不同用户的群体对比。单一的数据没有分析意义,只有多个数据组合才能发挥出数据的最大价值。
我想要分析公司的利润,利润 = 销售额 - 成本。那么找出销售额涉及的指标/维度,比如产品类型、地区、用户群体等,通过不断的组合和拆解,找出有问题或者表现良好的原因。成本也是同理。
这就是正确的数据分析思维。总结一下吧:我们通过业务建立和筛选出指标,将指标作为维度,利用维度进行分析。
很多人会问,指标和维度有什么区别?
维度是说明和观察事物的角度,指标是衡量数据的标准。维度是一个更大的范围,不只是数据,比如时间维度和城市维度,我们就无法用指标表示,而指标(留存率、跳出率、浏览时间等)却可以成为维度。通俗理解:维度>指标。
到这里,大家已经有一个数据分析的思维框架了。之所以是框架,因为还缺少具体的技巧,比如如何验证某一个维度是影响数据的关键,比如如何用机器学习提高业务,这些涉及到数据和统计学知识,以后再讲解。
这里我想强调,数据分析并不是一个结果,只是过程。还记得“如果你不能衡量它,那么你就不能有效增长它”这句话吗?数据分析的最终目的就是增长业务。如果数据分析需要绩效指标,一定不会是分析的对错,而是最终数据提升的结果。
数据分析是需要反馈的,当我分析出某项要素左右业务结果,那么就去验证它。告诉运营和产品人员,看看改进后的数据怎么样,一切以结果为准。如果结果并没有改善,那么就应该反思分析过程了。
这也是数据分析的要素,结果作导向。分析若只是当一份报告呈现上去,后续没有任何跟进、改进的措施,那么数据分析等与零。
业务指导数据,数据驱动业务。这才是不二法门。
作者:秦路
‘贰’ 数据分析的步骤
数据化运营(数据分析)具体落地到企业有这么五步:自上而下、数据闭环、搭建模型、数据分析、权限分配。我们具体看一下每一步应该怎么做。
一、自上而下|定义指标库,确定项目范围
我举一个O2O的例子,首先我们做自上而下的时候要知道公司内部到底有哪些决策,老板、产品、运营、培训、市场、招商、客户,每一个部门岗位关心什么指标呢~
我们做指标之前要有一个目标:提升运营效率,降低运营成本,简单说四个字降本增效。老板关注的是利润率问题,产品关注产品使用率、留存率等,运营关注成本控制等等,将不同岗位人员所关注的指标,都给梳理出来。
以上数据分析步骤、数据分析图表都来自bdp商业数据平台哦~
‘叁’ 如何创建数据模型
建立数据模型
1、建立实体联系模型
1.1、实体联系模型的基本构成
实体联系(ER)数据模型所采用的三个主要概念是:实体集、联系集和属性。
实体集是具有相同类型及相同性质(属性)的实体集合。联系集是指同类联系的集合。
在ER模型中,用矩形框表示实体集(矩形框中写上实体名),用椭圆表示属性(椭圆中标上属性名),实体的主码用下划线表示。实体集之间的联系集用菱形表示,并用无向边与相关实体集连接,菱形中写上联系名,无向边上写上联系集的类型。
实体集之间的联系类型有一对一,一对多,多对多
1.2、多元联系
在ER模型中,可以表示两个以上实体集之间的联系,称为多元联系。
一个多元联系集总可以用多个不同的二元联系集来替代。考虑一个抽象的三元联系集R,它联系了实体集A、B、C。可引进一实体集E替代联系R,然后,为实体集E和A、B、C建立三个新的二元联系集,分别命名为RA、RB、RC。可以将这一过程直接推广到n元联系集的情况。所以,理论上首链行可以限制E R模型中只包含二元联系集。
1.3、联系的属性
联系也可以具有单独的属性。
1.4、自身联系
在一个联系中,一个实体集可以出现两次或多次,扮演多个不同角色,此种情况称为实体集的自身联系。一个实体集在联系中出现多少次我们就从联系到这个实体集画多少条线,到实体集的每条线代表该实体集所扮演的不同角色。
1.5、子类和Is-a层次联系
在信息世界中,常常需要描述这样的实体集A,A属于另一实体集B。A中的实体都有特殊的属性需要描述,并且这些特殊属性对B中其他的实体无意义。在ER模型中,称A是B的子类,或B是A的父类。两类实体之间存在一种层次联系——Is-a(属于)。
如果A和B存在Is-a联系,则A中的每个实体a只和B中的一个实体b相联系,而B中的每一个实体最多和A中的一个实体相联系。从这个意义上说,A和B存在一对一的联系。但事实上,a和b是同一事物。A可以继承B中的所有属性,又可以有自己特殊的属性说明。用来区分A的主码也就是B的主码。
2、ER模型向关系模型的转化
ER模型是概念模型的表示。要使计算机能处理模型中的信息,首先必须将它转化为具体的DBMS能处理的数据模型。ER模型可以向现有的各种数据模型转换,而目前市场上的DBMS大部分是基于关系数据模型的, ER模型向关系数据模型的转换方法
关系模型的逻辑结构是一系列关系模式(表)的集合。将ER模型转化为关系模式主要需解决的问题是唤茄:如何用关系表达实体集以及实体集间的联系。
ER模型向关系模型转换的一般规则和步骤:
(1)将每一个实体集转换为一个关系模式,实体集的属性转换成关系的属性,实体集的码即对应关系的者哗码。
(2)将每个联系集转换成关系模式。对于给定的联系R,由它所转换的关系具有以下属性:
联系R单独的属性都转换为该关系的属性;
联系R涉及到的每个实体集的码属性(集)转换为该关系的属性。转换后关系的码有以下几种情况:
· 若联系R为1∶1联系,则每个相关实体的码均可作为关系的候选码;
· 若联系R为1∶ n联系,则关系的码为n端实体的码;
· 若联系R为m∶ n联系,则关系的码为相关实体码的集合。
有时,联系本身的一些属性也必须是结果关系的码属性。
(3)根据具体情况,把具有相同码的多个关系模式合并成一个关系模式。
‘肆’ 简述如何建立数据比对模型
建立数据模型的步骤包括:1.制订目标2.数据理解与准备3.建立模型4.模型评估5.结果呈现6.模型部署
一、制订目标
制订目标的前提是理解业务,明确要解决的商业现实问题是什么?
如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是一个要解决的现实问题。
二、数据理解与准备
基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:
需要哪些数据指标(即特征提取)(如:哪些指标能区别真粉和假粉?)
数据指标的含义是什么?
数据的质量如何?(如:是否存在缺失值?)
数据能否满足需求?
数据还需要如何加工?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)
探索数据中的规律和模式,进而形成假设。
需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推翻,这时一定要静心钻研,不断试错。
数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。
三、建立模型
在准备好的数据基础上,建立数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等高深的算法。选择什么样的模型,是根据要解决的问题(目标)确定的。
当然可以选择两个或以上的模型对比,并适当调整参数,使模型效果不断优化。
四、模型评估
模型效果的评估有两个方面:一是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);二是模型的精确性(误差率或者残差是否符合正态分布等)。
如:在识别KOL假粉的问题中,需要评估的是:
模型能否识别出假粉?
识别的误差率是多少?粉丝识别误差率=(假粉误认为真粉的数量+真粉误认为假粉的数量)/总粉丝数
五、结果呈现
结果呈现主要关注以下三个方面:
模型解决了哪些问题?
解决效果如何?
如何解决问题?具体操作步骤是什么?
六、模型部署
通过大量数据解决了一个或多个重要的现实问题,需要将方案落实下去,一般情况下需要通过线上技术环境部署落实,从而为后面不断优化模型、更好地解决问题打下基础。