数据分析方法论（实例分析篇）

数据分析（1）：对比分析法（附文章架构图）

数据分析有哪些价值呢？

像DAU/MAU这样的数据指标，直接去看就可以了，但是如果你的DAU昨天突然下跌了20%，你看到了这个结果，那它为什么下跌？下跌的原因是什么呢？如果你要找出下跌的原因就没有那么直接明了了。

上面我们说到下跌，那什么样的数据能告诉你下跌的原因呢，如果你的工作中涉及到数据分析，你肯定会遇到类似的问题。

举个栗子：你在互联网上有个菜铺，菜铺从浏览到消费的转化率一直很低，那到底该优化哪里呢？如果你要投放广告该怎么选择对象人群呢？

这些问题不是一个简单的指标就能告诉你该怎么做的，真正支撑你的工具或者数据也并不能直接帮你解决这些问题，你需要做的是将上面遇到的问题和你的数据建立一种关系的，然后通过一些分析方法和分析工具，让你在遇到问题时知道：我该选择什么样的分析工具或分析方法去解决实际业务中遇到的问题。

下面呢我们先讲讲对比分析法~

对比分析法

数据分析的最终目的是对现实的情况或一个功能的好坏做评估，这里最常用的方法就是对比分析法啦，俗话说的好：没有对比就没有伤害。

举个栗子：你的菜铺某一天的数据数据下跌了600，某宝某一天的数据下跌了600。那对于某宝来说这个数据算异常吗？带着这个问题，我们继续往下看…

接下来我们要解决对比分析法中的三个问题：

比啥呢？
如何比？
跟谁比？

首先，比啥呢？

这里有两种比法：

（1）绝对值

绝对值是本身就具备价值的数字，比如：电商平台的销售金额、公众号的阅读数、人人都是产品经理平台的阅读数和收藏数等。

当然，如果只看绝对值，你就无法得知事情严重到什么程度了。

（2）比例值

比例值在具体环境中看比例才具备对比价值，比如：人人都是产品经理社区的活跃占比、注册转化率，电商平台的详情页转化率，复购率等。

我们需要注意的是：比例值是一个除法计算，很容易把数量级的一些数字给忽略了，比如说：85除100和85000除以100000得到来的都是同样的值。

其次，如何比？

说到如何比，你一定听说过这两个词，环比、同比。说到环比和同比，大家一定会想到它们会跟年月日有关系，在这里呢，咱要强调一下，环比和同比不跟年月日挂钩，它只是两个概念。下面我们来说说这两个概念：

（1）环比

环比是与当前时间范围相邻的上一个时间范围对比

以下图为例：如果是日环比，则是拿星期二的数据与星期一的数据比，同理，周环比呢，则是拿本周的数据和上一周的数据对比，那月环比自然也是拿本月的数据与上一个月的数据对比了。

环比适合分析短期内具备连续性数据的业务场景，举个栗子：你是起点的产品经理，起点学院要给一门课程做促销活动，这个活动连续10天，在做这个活动的过程中，你每天都会去观察活动的效果，根据前一天的活动效果来优化后面的活动过程，而这个课程的活动之前没有做过，没法与以前的活动效果进行对比，这个时候你就要看日环比。

环比适用于根据相邻时间范围的数字对当前时间范围的指标进行设定。比如给我们的产品设定每月新增用户为100000，但是第一月我们只做到10000，第二个月只做到12000，那我们就需要跟据前面两月的实际情况进行对比，调整第三个月及之后的目标了。

那什么是同比呢？

（2）同比

同比是与当前时间范围上层时间范围的前一范围中同样位置数据对比。

举个栗子：今天是4月16日（当前时间范围），我们选择月同比，这里选择3月，月就是上层时间范围。刚才说了今天是4月16日，那做月同比呢，就是选择3月16日来同4月16日进行同比。同比的使用场景有：打赏的流水、销售流水等，在4月跑完流水之后，我们就会拿每一天去同上个月同样的一天做同比的对比。

像旅行、餐饮、骑行这些会受季节性影响的产品，会拿今年的这个日/月或一个时间段跟去年的同期进行比较。

在选择同比时：

周同比：如果是周同比，咱们最好选择周几，这样会排除因为周末或其他原因产生的影响，比如咱们选择本周的周一与上周的周一进行对比。
月同比：如果是月同比，咱们就可以把上个月的目标和这个月的目标每一天的进行校准。
年同比：年同比就是拿这一年和上一年进行同比，但是要去除掉季节、节假日的影响。

同比更适合去观察长期的数据集，还拿起点学院举栗子：从2014年成立到现在五六年了，这个时候我们对比数据时可以把今年的同去年的，或者去年同前年的，或者往年的任意一年的年同比进行对比，对比一下在同样的季度或月份里，咱们的数据表现是否正常。

同比适用于观察的时间周期里有较多干扰，而咱们希望某种程度上消除这些干扰。比如你是家校通这类工具类型的产品，你是不是需要考虑寒假，暑假和其他一些节假日，那如果你是短视频类的产品，你是不是需要考虑工作日和周末呢。

最后，和谁比？

对比分析，肯定要对比的对象，那咱们跟谁比呢？

（1）和自己比

时间维度：拿昨天跟前天，拿这个星期跟上个星期比等等。

不同业务线：跟公司不同的业务线进行对比，比如我是做语言培训的，我拿英语和日语比。英语数据涨跌厉害，那日语有这种情况吗？

往期均值：这里不同于时间维度，像留存、销售额、日活这些都是比较连续的数据，每天都会产生新的指标。但是有很多事情不是连续性的，它不会每天都产生数据，所以，这个时候咱们就要根据往期这些数据的均值进行对比。

（2）各行业比

上面咱们讲到和自己比，那在实际的业务中，如果跟自己比找不到原因，那么咱们就需要跟行业比，看是自身的原因，还是行业的趋势导致的跌或者涨。

都跌：如果都跌，咱能不能比同行跌得少？

还拿上面语言培训类的产品为例，A公司的跌了10%，咱们公司跌了30%，那么在这个相对竞争的环境中，咱跌的是更多的，通过这样的对比，咱就可以找到原因，并解决掉这个问题了。

都涨：如果都涨，咱能不能比同行涨得快？

都涨也是一样的道理，如果A公司涨了30%，咱们只涨了10%，也能找到原因，并给出解决方案。因为如果不这样做，那么相对于竞争对手而言，咱还是在跌的。

最后，文章上面提的问题：你的菜铺某一天的数据数据下跌了600，某宝某一天的数据下跌了600。那对于某宝来说这个数据算异常吗？我想你看完这篇文章已经有答案了。

好啦，到这对比分析法就讲完啦，下面是这一模块的思维导图，建议收藏并保存哦~

数据分析（2）：多维度拆解法

一、什么是多维度折解法

说到多维度拆解法，那我们首先要理解两个关键词：维度和拆解，下面咱举个栗子：这马上过年了，相信大部分朋友已经在回家的路上了，有的甚至在家葛优躺好几天了。回到家了七大姑八大姨最喜欢问你什么呀？

七大姑八大姨：听你妈说你还没对象呢，给你介绍一个吧，我这儿有个特别优秀的，第一，他个子高，第二，家庭条件很好，第三，长的特别的帅。

那在这个例子里，拆解维度就是把优秀拆分成三个维度即个子高、家庭条件很好、长的特别帅。在数据分析中，咱们也是这样通过不同的维度去观察同一组数据，从而洞查数据异动背后的原因。

二、多维度拆解的适用场景有哪些？

第一，对单一指标的构成或比例进行拆解分析时

这种场景呢往往适用于像分栏目的播放量和新老用户比例这种情况。

第二，对业务流程进行拆解分析时

一般适用于从不同渠道浏览到添加购物车到购买的这种全局的转化流程。
像有些跨区域的产品，不同的区域活动的效果自然不同，这时候我们就可以从不同省份或城市的活动情况来进行分析。

第三，对需要还原行为发生的场景时进行拆解分析

像这种场景呢，比较适用于一些直播类的产品，比如你是某直播类产品的产品经理或运营，你需要去观察打赏主播的等级、性别、来自哪个频道进行多维度的拆解。

还有一种情况是，你需要看一下用户在进行一系列操作时，他的网络情况是怎么样的，他是在WIFI下使用的还是在4G的环境下使用。

下面我们引用一个案例来讲解一下多维度拆解法。首先呢，我们来看看第一种场景：

1. 对单一指标的构成或比例进行拆解分析

举个栗子：你是某少儿语言培训类产品的产品经理，入职没几天，你们就对某一课程做了一波推广活动，老板想看看推广的数据怎么样，那你如何查看呢？

那首先我们从【进入网站事件】进行分析：

第一个维度：从用户性别进行拆分，由下图可以看出，进入网站的用户61%都是女性，这时候你知道了，原来相比孩子的父亲，母亲更关注少儿语言的培训，这也跟少儿大部分由母亲带有关。

第二个维度：从操作系统进行拆分，可以看出大部分用户来自iOS用户，据相关数据统计，女性用户更喜欢用苹果设备，这个是不是与前面的性别分析不谋而和了。

第三个维度：按渠道来源进行拆分，由下图可以看出42%的用户来自于订阅号，这个原因是什么呢？仔细一想，哦~原来是我们在活动开始前做了一场公开课，并在订阅号上做了相关推送。

第四个维度：从城市等级这个维度进行拆分，这个符合我们产品目前的定位，咱们的产品定位是中等偏高收入的人群，这类用户主要集中在一线城市。

第五个维度：从进入网站这个事件按新老用户进行拆分，由下图可以发现，咱每天的DAU在过去的一周内没有发生什么波动，但是按新老用户拆分后发现，随着这一波的推广，咱们的新增用户数一直在涨的，但是DAU却没有啥变化，这是因为老用户一直在往下跌，这一涨一跌交集之后，DAU的趋势没有啥变化，这背后反映的情况是：咱引入了大量的新用户，但是没有成功的留住他们。

大家可以看到，通过对【进入网站】这个单一行为事件进行分析，能分析出来很多有用的信息。其实数据分析的本质是：用不同的视角去拆分和观察同一个数据指标。

在拆解维度上我们不仅能对单一事件进行拆解，还可以对业务流程进行拆解，下面我们来讲讲第二种拆解方法。

2. 对业务流程进行拆解分析时

刚刚上面说了，你的少儿语言培训类产品做了一波推广，推广之后，你的【注册】、【下单】、【支付】的这个流程的数据是下图这样的，当然，如果只看这个流程，你除了知道整体的转化率和每一步的转化率以外，其他的数据就无从得知了。核心的原因是你不知道这个数据的构成是啥样的。

那么接下来我们用多维度拆解的方法，对这个业务流程进行拆解。

首先呢，咱们从渠道来源进行拆解分析，由下图可以看出，百度来的流量虽然不少，但是下单和支付的转化率相比其他渠道还是挺低的。那像这种情况咱们可以加大其他渠道的广告投放力度，减少百度的投放力度。

其次，咱们再从城市这个维度进行拆解分析，由次可以看出，在郑州这座城市用户下单的意愿不强烈，这表明咱的这个课程可能不适合二级城市（新一级城市）的用户。

最后呢，咱们从操作系统拆解分析，由下图可以发现，iOS用户不仅支付能力比较强，也跟我们的产品大部分是女性用户有关。

基于以上拆解的案例可以看出，多维度拆解法的运作原理非常简单：指标或者是业务流程按照多维度拆分，来观察数据的变动，从而找出问题的原因。

好啦，多维度拆解法我们已经讲完了，相信通过菜菜以上的讲解，你对多维度拆解法一定有了一个清晰的认知。

以下是本文重要信息的思维导图：

数据分析（3）：漏斗观察法

说到漏斗，肯定会有同学问，什么是漏斗呢？

一、什么是漏斗观察法？

漏斗是一连串向后影响的用户行为，也就是前一步对后一步有限制作用。它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析方法。

举个栗子：下面是某陌生人社交产品从登录成功到收到消息的漏斗，从登录成功到选择喜欢到匹配成功，再到发送消息，最后到收到消息，这是一连串用户行为，从登录到收到消息构成了一个流程，同时上一步与下一步都是限制型的影响关系。

比如说，只有登录成功了才能选择喜欢，只有选择喜欢了才能匹配成功，像这样每进行下一步都是从上一步跳转过来的，每一步之间都有转化率，每一步的转化率相乘就得出了这个漏斗的总化转率。

二、漏斗观察法的适用场景

适用场景：一般适用于有明确的业务流程和业务目标需要监控的。

不太适用场景：不太适用于没明确的流程或跳转关系纷繁复杂的业务，比如像新闻类、阅读类的产品等。

三、建立漏斗时容易踩到的坑

相信通过以上的介绍你已经对漏斗分析法不陌生了，但是呢，在工作的过程中使用漏斗时经常会踩到坑。下面我们来讲讲在建立漏斗时容易踩到的坑。

第一：漏斗一定是有时间窗口的

这是很多人在运用漏斗时没有考虑到的，对于漏斗的时间窗口选择是有讲究的。

我们还拿上面的陌生人社交产品为例：

用户在23：59分登录成功，在次日0：01分选择喜欢，如果你以天作为时间窗口，那么你把这个流程是计入第一天还是第二天呢，或者是把这个流程进行切割，第一天和第二天都没有完成。

所以说，时间窗口对漏斗分析法来说是很重要的一个属性，那如何给漏斗选择合适的时间窗口呢？

这个需要根据你的产品形态或者运营策略，选择对应的时间窗口。

何时按天：往往是针对一些短期的活动，我们认为这个活动对用户心智的影响只在短期内有效。如果是隔天的行为（就像我们上面举的那个栗子）就不属于这个漏斗了，可以把它划到自然天这个维度里。

何时按周：像理财和投资这类的业务，它本身复杂，决策成本高，多日才能完成一个业务流程，要按周。当然，这里主要还是看你的业务，如果你的业务流程时间周期大于一周，你可以选择半个月或者10天。

何时按月：比如一些装修买房类的产品，整个业务决策周期较长，会按月，比如一个月、两个月、三个月，甚至六个月。

基于以上可以看出，一定要基于自己业务的实际情况，选择对应的时间窗口。

第二：漏斗一定是有严格顺序的

举个栗子：你是某在线少儿英语培训产品的产品经理，你要对某课程从首页到支付成功的用户转化率进行分析，如是创建了下面这个漏斗：

那这个漏斗的流程有问题吗？你会说：没关系呀，我只看从首页到支付成功的总转化率就行了的。但是你发现没，你忽略了一点，用户只是通过搜索进入课程的详情页吗，并不只这一条路径吧，他还有可能是通过我们的首页广告位进去的，也有可能是通过课程中心的课程分类进的去。

所以，在创建这个漏斗时，我们选择事件，应该选择首页到课程详情页到支付成功是更为合理的和精准的。

所以，在以后创建漏斗时或者是观察别人的漏斗时，我们要留意每一步，而不是只看第一步和最后一步。

第三：漏斗的计数单位可以基于用户，也可以基于事件

还以上面某在线少儿英语培训产品为例：

如果基于用户，假设进入课程中心页面的用户是1200，浏览某课程的用户是1000，支付的是600，

如果基于事件，进入课程中心页面的用户是1200，那这里的数据肯定有这种情况：一个用户进入课程中心页面或某课程页面2次以上，比如网页的刷新等等这种情况。所以基于用户和基于事件会有不同的数据，自然也就有不同的结果。

那什么时候基于用户，什么时候基于事件呢？

首先这里需要看角色：

基于用户：如果你是这个课程的负责人，你关心的是每天有多少用户会浏览这个课程的页面，并最终支付成功的。

所以呢，如果你关心整个业务流程的推动，在创建漏斗时就基于用户去计数。

基于事件：如果你是产品经理，你需要关心的是有人第一次访问页面没有做出选择，也关心选择课程后为何有人没有支付，难道是支付流程不顺畅还是其他原因？

如果你关心某一步具体的转化率，在创建漏斗时就基于事件去计数。这里需要注意一点：如果基于事件，有时候可能无法获知事件流转的真实情况。

第四：结果指标的数据不符合预期

如果你创建的漏斗结果指标的数据不符合预期，需要有一个自查的过程，你需要考虑是否只有这一个漏斗能够到达最终目标？

我们还拿上面某在线少儿英语培训产品为例：进入课程中心的有1200人，进入某课程页面的有1000人，最终支付成功的有600人，但是我们到后台查看时，发现支付的有700人，那另外100个人从哪来的？这是我们利用漏斗分析时经常遇到的问题，层层漏，漏到最后发现数据跟业务后台的数据对不上。

最后，通过自查我们发现原来还有一个H5的活动页面，这个H5页面可以直接跳过课程中心和某课程页面，直接到达支付课程的页面，这个流量直接就跳过第一步和第二步到达第三步，所以漏斗的数据跟后台的数据对不上。

所以，基于这种情况我们需要再另外创建一个其他路径的漏斗来对比，解决这种结果指标不符合预期的数据。

好啦，到这里漏斗分析法就讲完啦，下面我们通过一张架构图总结一下：

数据分析（4）：分布分析法&用户留存分析法

一、分布分析法

1. 常见的群体划分有哪些？

（1）按事件的频率

举个栗子：某职业技能提升平台（下图）的某公开课程的页面，我们不止可以看PV，还可以把PV以用户浏览的次数进行查看，可以看看有多少人是看了1~3次的，有多少人看了3~5次的。

分布分析方法不同的是：平时我们只看此页面一共浏览了多少次，这样再去平均。在这里我们看到的只是一个平均数，可能很多用户一天就能看几十次，也有部分用户只看了一次，如果我们单独去看整个页面的浏览次数，是得不到用户真实的使用情况的。如果用分布分析去看用户的浏览次数，那么，我们就对这个页面的浏览次数有了一个清晰的认知。

（2）按一天内的时间分布

还以上面的某职业技能提升为例：上面说到查看次数，但是这个是课程的页面，我们不只要看查看次数，还要查看观看课程的时长，比如同样是看一次，有的用户看1小时，有的用户看3小时，这显然是不一样的。

（3）按消费金额的区间

最后呢，我们还可以按消费金额的区间进行划分，我们是一个职业技能提升平台网站，肯定有不同的用户购买不同的课程。

这里我们不仅可以从订单的笔数进行查看，还可以按消费金额划分区间，这样就可以知道我们这个平台消费0~500元的有多少用户，500~1000元的有多少用户，1000~2500元的用户有多少。

以上是分布分析法的三种主要分析方式，它的运作原理是：从事件在不同维度中的分布来观察，以便理解该事件除了累计数量和频次外，其他维度的信息。

2. 有哪些适用场景？

场景一

已经知道一群用户完成了指定事件，但需要对用户群体进行细分，按不同的维度（比如依赖程度）和价值（付款金额）将他们划为不同群体，分别进行后续的维护或分析。

比如说：把特别依赖的用户单独筛选出来，建一个用户运营的专项项目，去运营用户。也可以把那些付款金额大的用户，去做一些运营活动。

场景二

已经知道单个事件的完成次数，希望知道这些次数拆分到不同维度上后的分布情况，以便更清晰地了解该事件的完成情况。

比如：把不同的内容的查看次数放在一些对比，可能没有区别，但如果把几种内容的查看次数按照时间进行分布，可以看到更多详情的信息，比如某内容用户的查看时间段，A内容上午查看的用户多，B内容下午查看的用户多。

由此，我们可以发现，不同的内容在时间的分布上是有些特性的。这时候，在推荐内容上就可以根据不同的时间段推荐不同类型内容给用户。

二、用户留存分析法

1. 为什么要看留存？

短期来看：了解某一渠道的质量，一般看的是日留存

以天为单位，衡量这个渠道来的用户当下&接下来的表现。这里需要注意的是：以【 X日日留存】作为比较标准时，应避免其他日数据的干扰。长期来看：观察整个大盘，通常看的是周留存/月留存以周/月为单位，衡量产品的健康情况，观察用户在平台上的黏性是怎样的。记得务必要去重。

下面这款产品就是在一年的周期内，从1月份到12月份的新增用户，在后面几个月内留存的表现情况。

由下图可以看出，在产品不断的优化及迭代的过程中，每个月的留存是有所增长的，这证明此款产品的迭代和运营的方向是抓的比较准的。

思考一下：为什么在验证产品长期价值时选择月留存，而不是日留存呢？

这是因为留存这个数据本身波动都不太大，如果看日留存会有很多的数据需要处理，数据量大往往我们就不能把焦点放在该放的地方。而恰恰也刚好是我们一般迭代一个版本是半个月或者一个月，往往能从根本上影响留存的。

所以，从一个月来观察产品的留存变动，更能了解产品长期价值的变动。这种是最常见的留存计算方式。

2. 留存的计算方式

（1）常见的计算方式

大盘留存的计算方式：将某一时间的用户ID与另一时间的用户ID做交叉去重。

但是，大盘的留存会受很多因素的影响。举个简单的栗子：你的产品做了一个活动，引入了低质量的渠道（这是经常有的事儿哈），那么这个留存不管是次日/次周/次月都会大跌的。

还有一种可能是你搞这个活动的时候，这批低质量渠道过来的用户暴增，导致服务器宕机等等。所以，不管是产品还是运营，抑或是技术、市场每一个环节都会对留存造成影响。

（2）精准留存

精准留存有两种计算方法：第一，过滤进行过指定行为的用户ID，单独进行计算。

举个栗子：某在线阅读类产品，以下是大盘的留存，在这里呢我们要区分出来看了某一种类型的书籍的用户，有没有可能比其他的用户更有可能留下来。

这时需要把看过某一类型的书籍（比如励志类的）单独的筛选出来，只看这一批用户的留存情况。经过查看得知，此类型书籍的用户的留存比大盘高，那是不是表明还有其他类型的书籍比大盘要低啊。

所以，通过这样的观察，我们就可以得知各个类型的书籍吸引用户的能力是不一样的，然后去评判不同的书籍类型的运营质量，以及用户黏性的价值。

第二，根据用户不同的属性，划分为不同的群体，观察它们之间留存的区别

举个栗子：我们是王者农药的产品经理，如果通过大盘来观看数据，是看不出所以然的。这个时候我们可以给用户划分为不同的用户群体，在这里我们把用户进行分区划分，通过分区我们可以发现，有的区它的周留存是优于其他区的，那我们就可以研究这个区为什么做的好，然后把这个区做的好的点复制到其他区域。

最后一张架构图总结一下：

好啦，以上就是关于分布分析法和用户留存分析法的分享，希望能给大家提供一些思路和灵感。

分类

运营学院 · 2020年02月5号 0