用户画像分群：增长分析必杀技？( 三 )

文章插图
2. 用户分群背景和目标:
某产品覆盖社会各种群体（不同年龄、不同行业、不同兴趣等），需要将大盘用户进行一定细分，然后针对性的开展运营活动。
3. 聚类变量选取:
用户画像特征、用户状态特征、用户活跃特征
4. 聚类分析和结果：
通过相关性分析和变量重要性分析，剔除部分效果差的变量，然后对剩余11个变量进行多次训练（目标聚类个数，参与的变量，组内个体差异容忍度），最终得出聚类结果

文章插图
图3：用户分群K-means聚类效果
5. 结果解读和命名：
聚类1：低端低龄群体
聚类2：学生活跃群体
聚类3：职场高粘性群体
聚类4：职场低粘性群体
聚类5：高龄低活跃群体
表2：用户分群K-mean聚类结果
六、两步聚类和k-means聚类的效果对比
前面谈到的K-Means聚类法有简单、直观和快速的优点。但是其缺点是只能采用数值型变量，不能包含类别变量，并且对异常值非常敏感，离群值很容易严重影响聚类结果。并且，当数据集比较大（在腾讯，这种情况很常见），不能把所有数据点都装进内存的时候，K-Means就无法在单机上运行。而两步聚类法则克服了以上缺点，可以包含类别变量和数值型变量，并且当硬件条件不足或数据集非常大时，都能顺利运行。这种两步聚类法可以看成是改进版BIRCH聚类算法和层次聚类法的结合，先用BIRCH算法中的“聚类特征树”做预聚类，形成子类，然后把子类作为输入，做层次聚类。
1. 两步聚类的原理：
第一步：预聚类过程：
构建聚类特征树（CFT），分成很多子类。
开始时，把某个观测量放在树的根节点处，它记录有该观测量的变量信息，然后根据指定的距离测度作为相似性依据，使每个后续观测量根据它与已有节点的相似性，放到最相似的节点中，如果没有找到某个相似性的节点，就为它形成一个新的节点。在这一步当中，离群点将会被识别并剔除，不会像在K-Means当中那么容易地影响结果。
第二步：正式聚类：
将第一步完成的预聚类作为输入，对之使用分层聚类的方法进行再聚类（以对数似然函数作为距离的度量）。每一个阶段，利用施瓦兹贝叶斯信息准则（BIC）评价现有分类是否适合现有数据，
并在最后给出符合准则的分类方案。
2. 两步聚类的优点：
1.海量数据处理；
2.自动标准化数据；
3.能够处理分类变量和连续变量的混合数据；
4.可自动丢弃异常值或者将异常值归入最近的类。
5.可自动确定或者根据业务需要人工指定分类数目；
3. 两步聚类的效果对比：
对第六点同样的数据进行两步聚类，得到模型最优结果如下

文章插图
图4：用户分群两步聚类效果
4. 两步聚类结果解读：
聚类1：低端低龄群体
聚类2：学生或新入职场高活跃群体
聚类3：青年低活跃群体
聚类4：青年挂机群体
聚类5：职场办公群体
聚类6：高龄低活跃群体
表3：用户分群两步聚类结果
七、业务案例 – 通过K-Means聚类，挖掘特殊行为模式的客户群
1. 业务需求
在本案中，产品经理希望了解登录不活跃用户的行为模式，并且能针对不同的行为组合，对庞大的用户群体进行细分，从而关注不同群体的不同需求，甚至挖掘垂直领域需求，从而在产品或运营侧采取措施，拉活沉默用户，提高DAU 。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。