注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘实践应用(92,第三种活跃度定义的方法,某在线产品W的用户活跃度定义)  

2011-10-11 19:08:52|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

背景:前面有期博文(具体参见数据挖掘营销应用之85,“活跃用户”的不同层次的定义和实践分享),我分享了对于X产品和P产品的两种不同的活跃定义分析实践(基于产品的不同实际情况)。最近,接到新的分析需求,针对W产品,业务方希望通过数据分析给出一个比较合理的类似“活跃度”的评价指标定义和应用规划,这样在运营时可以根据这个比较科学的指标规划,进行有针对性的运营计划和参照,也可以将这个定义指标用作每天每周每月的KPI指标进行监控。W产品主要用途就是类似“在线店铺装修”功能,用户使用这个产品可以对自己的网站或者店铺进行不同目的和模块的装修,由此可以提升店铺或者网站的吸引力和粘连力。基于W产品的这个特点,明显按照前面的X产品和P产品的活跃定义的思路是行不通的,因为W产品的使用基本上是一次性的(装修完了就结束了,不像前面的X产品和P产品,用户每天都有使用行为和使用字段可以跟踪记录分析),这个本质的区别决定了对W产品的活跃分析需要一个不同的思路和方法,我喜欢做这种新尝试的分析课题,有不同才有进步,太阳每天都是新的,多好,呵呵。

首先,跟业务方沟通讨论,这个所谓的“活跃度”定义并不准确,我觉得“优质潜在买家”的定义更加符合业务方的需求,更加适合W产品的产品特点(不存在持续的产品使用行为字段可以追踪记录),按照这个定义,我简约地跟业务方演示了具体的分析思路:

“W产品优质潜在买家指标定义”基本上从用户的客观需求和主观表现两条大的主线展开分析;客观需求,是指某些指标、字段从客观上可以显示用户对于W产品的使用有一定的需求(比如商品类目数量比较大的话,应该更需要W产品的“类目显示”功能,等等);从主观表现上看,又可以进一步细分出用户三层不同的分析指标群(一个是门户网站的行为,比如近30天登录天次,注册年限,等等;一个是其他增值收费产品的付费使用情况,因为我们完全有理由相信,如果一个用户经常花钱购买品牌服装的话,他一定也会经常花钱购买品牌鞋,包等配饰的;第三层分析指标群就是跟W产品间接相关的一些指标变量,比如店铺的优质offer的数量,等等)。总体的思路是把上述主观、客观以及三个层次来源的指标进行汇总分析,通过主成分分析工具,降维后找出最有意义有代表性的几个关键的合成的新成分(即指标),只要这个指标能有效锁定细分人群(不致人群数量太大带来的准确率低)并且证明可以相当程度上覆盖目前的付费使用人群,就基本上可以满足业务的需求了。

这个思路得到业务方的理解和支持,接下来开始正式探索了,呵呵。一共24个分析变量,近百万行数据。

抽取数据后,第一个重要工作就是通过“线性相关性分析”,排除一部分有强相关性的“重复性”指标字段,基本上把0.7以上的“重复性”相关字段排除了,剩下20个相互间没有明显强关联的分析字段,还是太多了。

通过第一次主成分分析,效果并不好,最大特征根的比例只占20%,要累积85%的特征根比例需要至少10个特征根。光凭这些指标,就已经让人不满意了,因为指标太多,业务解释和理解的成本太高,后期固化应用的成本也大。更重要的是,把这些主成分分数抽取出来后,无论是单个的主成分分数,还是综合分数,都不能有效覆盖当前在服务期中的有效付费客户群。第一次分析的结果,无论从指标统计上的学术意义,还是对实际数据的拟合来看,都非常不好,必须要想办法提升。

我分析主要原因在于输入的原始变量太多,结合本分析课题的业务需求,肯定还有一部分分析字段与“潜在优质用户”没什么关系,需要逐步精简、摸索,找到真正的少数几个重要变量。

那我先尝试放弃对于“其他增值收费产品的付费使用情况”的考虑,效果不错,但还有提升空间;继续尝试放弃对于“客观需求之类字段”的考虑(事实证明,客观需求方面的字段虽然理论上很有价值,但是实际应用中,用户的行为非常分散,难以聚焦),对此策略尝试分析,效果不错,继续提升准确率;这样不断精简剔除跟分析目标无关的变量字段,我们已经聚焦到用户“W产品的主观行为”以及“W产品的付费历史”共5个字段(包括近30天登录W后台的天次,浏览自己前台的天次,付费的历史等等,需要强调,付费历史这个字段在最终的解决方案中权重最低)是最有意义和价值的分析变量。主要理由来自两个方面:第一,从主成分的结果统计指标看,两个特征根就可以满足85%的累积阀值要求,并且第一主成分的特征根向量解释起来非常符合业务逻辑和业务理解;第二,更重要的是,通过实际数据的检验,在8月份的70万俱乐部T群会员按照该主成分分数高低排序,最优质高分的5%的用户群里可以覆盖95%的当期在服务期中的W产品付费用户群;为了更科学评价本结论,继续验证7月份,6月份的相应数据,验证数据显示效果比8月份的数据验证效果还有好,最高分的4%用户群里可以覆盖98%的当期服务期中的付费用户群,完全满足当初的分析课题的目标。

将此分析结论和建议提交业务方一起讨论评估,大家基本同意,并已经投入到新的运营实践中进行落地应用效果评估,具体的效果反馈还需要一定的时间去观察,但是我相信跟前期的历史验证效果相比不应该有太大的差距的,呵呵,这就是科学,这就是数据化的精准。谢谢数据挖掘分析技术,让我这个白痴可以在互联网行业的数据分析挖掘应用中从容、欣慰、感恩、相信。在俗世混饭吃,我现在不知道除了互联网的数据分析挖掘,我还可以有什么更好的饭碗?

     当然,“不怕一万,就怕万一”,万一本次落地应用效果跟前面几个月的历史数据效果验证相比有明显的下滑呢?说实话,我还真的盼望这个“万一”,因为我已经很久没有在项目实践中碰到大钉子了,“只有实践中的难题和尴尬才可以真正提升自己对于数据分析挖掘实践项目的掌控能力和技术水平”, 这应该是个真理吧,做数据分析挖掘项目如此,人生不亦如此?一帆风顺的人从来就体会不到生命的曲折的壮美,从艰难困苦中挣扎出来的人才知道生命如歌,生如夏花!!! 

其实,“困难与磨难是进步的垫脚石”的看法还仅仅只是入世的看法,在出世的佛家看来,俗世的困境和难堪恰好是修炼的“选佛场”,有缘人自会以喜悦心自勉,用平常心对待,个中的奥妙即使是俗世中的数据分析挖掘也是可以由些许体会的!!!

  评论这张
 
阅读(2058)| 评论(2)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017