如何通过数据找到影响用户留存的关键因素？

Aine 1年前

编辑导语：随着互联网流量红利见顶以及获客成本的升高，运营人员需要寻找影响用户留存的关键因素，做好存量运营。此时，利用数据分析，也许能够帮助运营人员找到关键因素所在。本篇文章里，作者便总结了如何在海量数据中找到影响用户留存关键因素的方法论，一起来看一下。

根据QuestMobile数据显示，2021年中国移动互联网用户规模保持在近11.6亿，2021年5月同比增速竟首次出现负增长，这意味着流量红利时代结束，进入存量争夺阶段。

而互联网不同赛道的玩家，也不得不把突破增长困局的关键点，放在如何提升存量用户的留存价值上。

在该背景下，作不甘沦为取数工具人的分析师，可以主动深入业务，通过海量数据挖掘出影响用户留存的关键指标，并结合业务逻辑，给出合理可行的建议。

接下来笔者会分享自己在工作中沉淀的一些留存分析方法论，给大家奉献满满的干货，别走开，精彩马上来~

分析框架：

确定流失和留存的具体口径；
通过定性和定量等方法寻找与用户留存相关的指标，并设计相应策略；
设计AB实验，检验留存提升策略的有效性。

一、确定留存的具体口径

首先要结合用户行为数据，或者基于业务常识，和业务人员对流失或者留存用户的口径达成一致。口径的确认点主要是：【多久（窗口期）】内没有发生【什么关键行为】会被定位为流失。

1. 关键行为

不同业务模式下的用户核心行为不同，比如对于交易平台，关键行为可能是下单；对于短视频平台，关键行为可能是播放视频；对于工具类APP，关键行为可能是启动APP。

2. 窗口期

窗口期的长短取决于，用户关键行为的发生频次高低。比如车主用户一般每隔14天加油一次，因此14天可以作为窗口期。

可以基于用户相邻两次关键行为天数间隔的75%分位数的方法确定窗口期的大小。比如，选取昨日发生过关键行为（比如下单、或启动APP）的用户作为研究对象。分析这些用户最近两次关键行为发生的间隔天数。如果75%用户的间隔天数都在 xx 天内，则 xx 天可以作为流失行为的窗口期。

二、影响用户留存的相关性因素分析

1. 搭建影响用户留存的指标体系

可以选取用户静态画像、活跃行为类指标、付费行为类指标、以及其他核心行为类指标作为指标体系。也可以参考用研团队针对流失和留存用户的调研结果，为指标体系搭建提供新的思路。

一般的，用研团队对流失和留存用户的调研提纲如下：

（1）流失用户

调研其年龄、性别、职业、城市、圈层等社会学画像；
深度挖掘其为什么流失的原因；
回归意愿如何；
以及流失的去向是哪里；
他们对竞品和本品的使用体验差异点在哪里。

（2）留存用户

社会学画像；
留在本品的核心驱动力；
通过什么方式被吸引到本品；
来源渠道。

巧妇难为无米之炊，数据是分析师必备的武器。用户调研结束后，数据分析师要尝试对调研结果中用户强烈吐槽或者十分满意的功能体验，尽可能抽象成可观测、可度量的数据指标。

比如用户吐槽刷到内容平台 APP 广告太频繁，可以将广告性质内容的曝光次数作为指标，纳入下一阶段的定量分析中；用户认为平台最大的优势在于有金币领取，可以将金币等指标体系纳入定量分析中。

2. 影响留存的重要指标筛选

影响用户留存或者流失的因素非常多，需要从众多指标中筛选出重要度较高的几个指标。以下有两种方法可以提供参考。

（1）相关性分析

选出与留存率相关性系数较高的前几个行为，作为关键行为候集；同时还要考虑发生该行为的用户的渗透率高低、留存率提升幅度的高低，即要保证最终的留存人数处于较高的水平（留存人数 = 人数*渗透率*留存率）。

假设某个社交媒体平台 APP ，流失用户被定义为近7日未启动APP的用户。影响留存的指标、各指标与留存率间的相关系数、行为渗透率、留存率提升幅度见下表（具体数值均为模拟数据，请勿参考）。

从上面的四象限图可以发现，播放短视频、金币页面访问等行为的渗透率较高，且留存率提升幅度也较高，因此可以作为影响留存的关键行为候选集。

（2）基于各类树模型

各类树（决策树、随机森林、GBDT等）模型训练结束后，可以输出模型所使用的特征的相对重要度，可以解释哪些因素是对预测有关键影响，因此可以帮助我们快速找出对用户留存影响度高的关键因素。

① 特征选择

用户画像类特征（年龄、性别、城市、手机品牌、手机型号、平台角色、是否安装竞品、竞品APP安装数量、新增渠道类型）；
活跃类标签（近 7 天APP启动次数、近 7 天APP使用时长、近 7 天活跃天数、首次活跃距今天数、末次活跃距今天数）；
消费类行为标签（近 7 天内容曝光次数、近 7 天内容点击次数、近 7 天内容播放时长）；
互动类行为标签（近 7 天点赞次数、关注次数、评论次数、转发次数、收藏次数）；
付费类行为标签（近 7 天打赏主播次数、打赏金额、充值金额）；
金币激励类标签（近 7 天金币提现金额、签到次数、得金币数、访问福利中心页面次数）。

② 正负样本构建

先锁定特定日期范围（比如 2021.07.01-2021.07.07）的活跃用户，根据其是否在后续7天（2021.07.08~2021.07.14））活跃来划分正负样本。

正样本：留存用户，即前7-14日（2021.07.01-2021.07.07）启动过APP，近7日（2021.07.08~2021.07.14）启动过APP的用户；
负样本：留存用户，即前7-14日（2021.07.01-2021.07.07）启动过APP，但近7日（2021.07.08~2021.07.14）未启动过APP的用户。

③ 构建模型时的注意点

正负样本的样本数尽量保持在1：1，避免正样本数量过少导致学习不到正样本的信息，或者负样本数量过大影响训练速度；
模型预测效果不佳时，可以尝试使用多种模型，比如GBDT+LR、XBoost等；
区分不同类型用户分别构建模型，比如区分新老用户、创作者用户和消费型用户、高低中频次用户等。

根据上图（具体数值均为模拟数据，请勿参考）可以看出，近7日活跃天数、APP启动次数、访问时长、以及播放短视频次数等行为指标可以作为留存的关键指标。

④ 特征间的相关性分析

通过对特征间的相关性系数分析发现， APP 启动次数和访问 APP 时长指标之间存在很强的相关性，可以剔除其中一个指标。

至此，我们可以选择7天内APP活跃天数、启动APP次数、播放短视频次数作为影响留存的关键指标。

根据这些指标，我们可以设计新人激励体系，引导用户尽可能地多完成关键行为。比如新用户激活后登录APP、播放视频，会有积分或者金币等形式的激励，该激励活动以 Push 或者站内弹窗等形式传递到用户。

但是激励活动的具体规则，比如播放视频次数在7天达到多少，才能给到激励呢？我们同样可以基于数据给到建议。比如观察第一个7天内完成不同播放次数的用户，在下一个周期的留存率，找到留存率变化的拐点（边际提升幅度最小的点）作为激励规则的临界值。

3. 留存关键因素的因果性验证

相关性不等于因果性，因果性的检验必需通过设计AB实验验证，并量化策略的增量效果。

比如对于金币激励策略，可以抽取50%新用户作为对照组用户，且对照组用户无激励活动触达；50%新用户的实验组，则通过push或者站内弹窗触达用户。观测对比两组用户在未来7天的留存率，并核算delta ROI（delta 活跃人数/金币折算），以衡量策略的效果。

鉴于网上AB实验如何开展以及如何评估的文章较多，该部分不再具体展开叙述。

三、总结

本文介绍了用户留存相关的通用分析方法，希望能够给大家带来一些新的认识。但限于笔者自身知识和能力水平限制，本文难免会有考虑不周全之处，如有不同见解，希望大家可以一起讨论。

作者：郝笑笑，来源：微信公众号：一个数据人的自留地。

本文由@一个数据人的自留地授权发布于运营派，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议。