注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘营销应用(85,“活跃用户”的不同层次的定义和实践分享)  

2011-01-26 17:52:22|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

临近年关了,很多部门陆续进入休假的准状态,但是数据分析部门的工作不但没有轻松反而更加吃紧,这从一个侧面说明了数据分析的应用是无穷无尽的。放眼望去,其实很多事物都是具有这个“无穷延展”的特点的,“幸福”的定义可以无限深究,从物质到精神,从感官到心灵;“人生的价值”的定义可以无限延展,从小我,到大我,乃至到无我,不同的层次都有不同的应用场景和缘起缘灭。所有这些变化的流动的特点,就是万物的本质规律,在世俗就是“变化”,在佛门就是“无常”。最近做的关于“活跃用户”定义的系列课题,如果让我自己总结的话,印象最深的就是“无常”,就是“变化”,一切围绕业务需求变化,一切的定义和结论,尽管都是围绕“活跃用户”展开,但是随着客观条件的不同,可以得到千差万别的分析方法和分析策略。

“活跃用户”定义,是商业分析中的一个基本工作,通过对“活跃用户”的监控,是互联网行业的日常运营监控重点和管理重点。在互联网行业,“活跃用户”的定义因为该行业的数据海量性,可以由很多不同纬度的字段和指标来定义,来描述。关于活跃的定义,从目前行业做法看,有的非常简单(按照登录天次以及相应的几个功能点的次数来划分一个分割线);有的跟数据挖掘预测模型的结论挂钩,从复杂的关键字段之间的逻辑关系来定义“活跃”;有的通过“engagement参与度”来做这个活(所谓的engagement方法,也就是类似上面的关键功能点的权重以及汇总分数);上述各个方法没有好坏优劣之分,只有“能否满足业务需求”之别,做的好不好,只能靠“业务部门”的业务实践应用后的反馈来评价了。

我们最近做的课题是重新定义一个比较合理的X产品的活跃用户定义以及P产品的活跃用户定义。原先的这两个产品的活跃用户定义都是比较粗放的描述,比如“最近30天登录X产品的次数大于4天次,并且R功能点的使用次数4次以上”,这个相对粗糙的定义在业务应用中的“业务反馈”就是按照这个标准圈定的用户群体,一方面距离真正的付费用户有很大的差距(付费转化率很低);另一个方面,这个“活跃群体”也距离产品真正的熟练使用有很大的差距。基于这些缺陷,“业务部门”提出,重新定义两个产品的“活跃用户”,兼顾两个条件:一是新的定义确实可以保障活跃群体的深度的产品使用,二是新的定义有相当比例的付费用户可以覆盖。

我们先来看X产品,在熟悉了该产品的使用流程和用户行为数据分布的基础上,数据分析人员首先与产品的PD人员一起讨论,沟通,整理出基于PD人员的理论上的有关该X产品的主要功能点的指标字段;根据这些关键功能字段,抽取用户数据,看分布,看相互之间的相关性,(对于其中四个字段,因为80%-90%的用户近30天的数据小于等于1次,且付费用户在这个区间的占比高达70%以上,有的甚至高达99%,很明显这四个字段,在这样的程度和频率使用是谈不上“深度”使用的,可以把它们排除在活跃定义的字段范围的)。现在针对另外5个字段(包括登录天次数)先进行相关性分析(发现相关性不强,不能相互代替),结合该产品的价值特点,我们认为这些功能点相互之间没有先后和从属关系,有的用户可能只深度使用甲功能,有的用户可能只深度使用乙功能,有的用户只深度使用丙功能,(随后的数据分布,我们也发现并验证了这个设想),在这个情况下,“或”的关系更加适合该X产品的功能点的活跃定义。鉴于这些功能点之间并没有什么优劣先后之分,他们之间的权重可以认为是一样的。根据上述的分析和验证,将所有用户的这些功能使用的指标总分数以及付费用户的指标进行分位数排序,同时兼顾付费用户群体的覆盖情况,完成了X产品的活跃用户定义,目前业务部门正在试用该定义,是否有效,是否满足业务需求,正在等待反馈。

本以为上述X产品的活跃定义思路可以“复制”到P产品的,但是按照上述思路,提取数据后,我们发现P产品明显比X产品复杂,P产品的几个功能指标有不同的单位和基数,有的是考察用户的访客数量,有的是考察用户的主动点击行为,权重不同,不能简单相加。在结合上述X产品的部分分析方法和思路的基础上,重点通过“归一化处理”和“主成分分析”两种方法尝试解决,最终采用“归一化处理”,因为这种方法更加易于为“业务部门”理解和接受,也更加容易在以后的落地应用中得到实现和及时修正。(分析过程中,发现P产品的几个关键指标的相关度非常高,高达95%,但是经过与业务部门沟通,他们建议还是按照主动行为,客观行为的关注点和关注理由,把几个貌似非常相关的指标适当挑选后加入最终的定义指标之列,由此可见,实际的分析应用中,业务理解和业务建议是多么重要。话说回来,业务部门的这个决定是否真的有必要?我没有时间去业务应用实践中验证,不过,只要这个建议不是原则性错误(哪怕是多余的),再加上业务部门的坚持,还是可以采用的。因为赢得业务部门的理解和支持是课题成功的基础)。

从目前业务部门对于这两个产品的新的活跃定义的业务应用来看,业务方还是比较满意的,因为满足了课题提出时的两个“条件”。我个人从这个课题得到的最大收获是“紧紧瞄准业务需求,及时与业务方分享沟通阶段性的结果和我们的建议,小小的“活跃定义”可以玩出千变万化,不过万变不离其宗,“业务需求的满足”就是核心宗旨,不同业务产品的客观条件的灵活应用是满足这个核心宗旨的基础条件。

我们曾经设想的聚类分析方法,因为不同群体的不同标准,很难统一到同一个产品的活跃定义,也就是没有实际价值。

我们曾经设想的预测模型的方法,因为互联网产品用户的行为变化太快,很难固化成一个长期的活跃定义指标,也就没有实际价值。

很多时候,一个分析课题的解决方案能否获得业务实践的欢迎或者好评,不在于分析工具和算法的先进如否,而在于分析思路是否正确,分析结果是否满足业务需求。

大道至简!!!

 

  评论这张
 
阅读(2509)| 评论(2)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017