用户画像分群:增长分析必杀技?( 三 )

  

用户画像分群:增长分析必杀技?
  
文章插图  
2. 用户分群背景和目标:  
某产品覆盖社会各种群体(不同年龄、不同行业、不同兴趣等),需要将大盘用户进行一定细分,然后针对性的开展运营活动 。  
3. 聚类变量选取:  
用户画像特征、用户状态特征、用户活跃特征  
4. 聚类分析和结果:  
通过相关性分析和变量重要性分析,剔除部分效果差的变量,然后对剩余11个变量进行多次训练(目标聚类个数,参与的变量,组内个体差异容忍度),最终得出聚类结果  
用户画像分群:增长分析必杀技?
  
文章插图  
图3:用户分群K-means聚类效果  
5. 结果解读和命名:  
聚类1:低端低龄群体  
聚类2:学生活跃群体  
聚类3:职场高粘性群体  
聚类4:职场低粘性群体  
聚类5:高龄低活跃群体  
表2:用户分群K-mean聚类结果  
六、两步聚类和k-means聚类的效果对比  
前面谈到的K-Means聚类法有简单、直观和快速的优点 。但是其缺点是只能采用数值型变量,不能包含类别变量,并且对异常值非常敏感,离群值很容易严重影响聚类结果 。并且,当数据集比较大(在腾讯,这种情况很常见),不能把所有数据点都装进内存的时候,K-Means就无法在单机上运行 。而两步聚类法则克服了以上缺点,可以包含类别变量和数值型变量,并且当硬件条件不足或数据集非常大时,都能顺利运行 。这种两步聚类法可以看成是改进版BIRCH聚类算法和层次聚类法的结合,先用BIRCH算法中的“聚类特征树”做预聚类,形成子类,然后把子类作为输入,做层次聚类 。  
1. 两步聚类的原理:  
第一步:预聚类过程:  
构建聚类特征树(CFT),分成很多子类 。  
开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点 。在这一步当中,离群点将会被识别并剔除,不会像在K-Means当中那么容易地影响结果 。  
第二步:正式聚类:  
将第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类(以对数似然函数作为距离的度量) 。每一个阶段,利用施瓦兹贝叶斯信息准则(BIC)评价现有分类是否适合现有数据,  
并在最后给出符合准则的分类方案 。  
2. 两步聚类的优点:  
1.海量数据处理;  
2.自动标准化数据;  
3.能够处理分类变量和连续变量的混合数据;  
4.可自动丢弃异常值或者将异常值归入最近的类 。  
5.可自动确定或者根据业务需要人工指定分类数目;  
3. 两步聚类的效果对比:  
对第六点同样的数据进行两步聚类,得到模型最优结果如下  
用户画像分群:增长分析必杀技?
  
文章插图  
图4:用户分群两步聚类效果  
4. 两步聚类结果解读:  
聚类1:低端低龄群体  
聚类2:学生或新入职场高活跃群体  
聚类3:青年低活跃群体  
聚类4:青年挂机群体  
聚类5:职场办公群体  
聚类6:高龄低活跃群体  
表3:用户分群两步聚类结果  
七、业务案例 – 通过K-Means聚类,挖掘特殊行为模式的客户群  
1. 业务需求  
在本案中,产品经理希望了解登录不活跃用户的行为模式,并且能针对不同的行为组合,对庞大的用户群体进行细分,从而关注不同群体的不同需求,甚至挖掘垂直领域需求,从而在产品或运营侧采取措施,拉活沉默用户,提高DAU 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。