注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万里长征第一步)  

2011-12-05 10:39:20|  分类: 数据挖掘交流讨论 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

背景:2011年11月30日,汪生在本博客留言(“今年做了差不多一年的互联网方面的挖掘课题,现在我面临着你前面提及的瓶颈和困局。本来期望年底的注册响应模型能有起色,但不幸的是,互联网的确有特殊之处。能注册的自然注册了,不愿注册的即使给了OFFER还是不够大。不仅如此,营销配合的业务部门也不给力。对我而言,这是一个艰难时期。不知老兄可有良策。”

回复:汪生你好,我们不约而同想到了同样的话题。我在最近2个月做了一个挖掘应用课题(某核心产品高活跃免费用户防止流失的预警模型应用),建模阶段在业务部门的支持配合下进展顺利,实际数据验证模型也非常稳定可靠满意。我在本文重点分享和介绍的就是业务落地应用中的真实节奏和真实感悟,希望能给你提供点滴参考和借鉴,也是献给我自己平淡无聊又碰巧充满收获的即将过去的2011,感谢互联网时代,感谢一路相伴的贵人们,此处省略三百五十字……………..!!!下面日志主要想说的是,一个优秀的完美的挖掘模型并不是必然带来运营落地应用效果的完美,落地应用相比建立模型来说更加复杂,更加挑战,涉及到更多的不可确定的因素。也正因为落地应用更复杂更挑战,所以数据分析师应该有勇气有热情突破自己的数据分析挖掘的领域,向业务应用延伸,这个要求短期看是对企业有功,长期看是对分析师个人的跨越式成长所必须的,只有不断突破自己,才可能真正成为实战型的数据分析专家。作为数据分析师来说,个人的含金量或者说个人的专业价值一定是要在实战中体现或者发挥的,仅仅能熟练搭建一些准确的完美的模型离市场所需的实战型优秀分析师的能力之间的距离有天壤之别。

项目建模阶段概述:免费客户运营部提出一个分析需求,鉴于免费客户中的高活跃用户群体(该群体是最有可能转化成付费用户的)流失率比较高(涉及东家商业隐私,本博客所有商业数据做了屏蔽或修改),业务方希望通过数据分析挖掘提前预警发现最有可能在近期流失的用户,并提交运营部门做精细化分层运营,力图有效挽回高流失风险的用户,降低该用户群体的流失率。通过与运营方前期沟通,首先明确定义了本分析课题中“什么是流失用户的定义”,根据运营方的运营节奏和经验,“H层流失用户是指在A时间点属于H层用户,在A加7天的时间点已经跌落离开H层,并且在A加14天的时间点仍然没有回到H层的用户”。接下来,与运营方一起讨论潜在的分析变量字段,结果运营方为了省事,把宽表里所有70个字段全部作为潜在分析字段让我选,呵呵(“悟空,你又在调皮!”)。第一次提数据,30万行70个字段,通过基础原始数据摸底和数据清洗,排除了空缺严重的或者分布过度集中的或者高度相关的字段共36个,同时,发现了两个字段数据矛盾(过去30天某某操作天数为零,但是过去30天某某操作次数不为零),这个相互矛盾的两个字段我们觉得不能忽视或者简单删除,要找原因,经过与数据仓库方面沟通,发现是数据仓库数据回滚错误造成的,这样必须重新提取数据。第二次重新提取数据后,按部就班边分析边分享,进展顺利,当模型搭建完成,验证比较满意,准备提交业务应用时,我突然想到一个关键问题,“这样大动干戈挖掘建模出来的结果,有没有更加简单直观的分析方法代替呢?”,换言之,如果我们直观猜想“在起初的A时间点,在H层定义的值域附近的人群是否可以直观判断在7天14天时间点最有可能跌落离开H层?”,无论这个直观猜想是否正确,我们最起码要验证一下吧。结果,我回头验证的时候,猛然发现,我们当初全部囊括的宽表里的70个字段,尽然没有包括H层定义的那几个字段(行业的登录标准天次,行业的关键A页面的pv,等),如果没有这些字段数据,那么上述的直观假设就无法验证,我们也就不能理直气壮证明挖掘模型的价值了。所以,尽管模型单方面看可以满足业务需要,在这种情况下,我主持召开了课题阶段分享会,向业务方通报进展和无法对比直观假设的尴尬,面对当前的模型结论和发现的一些明显证明是与流失有密切关系的一些字段,业务方非常感兴趣,也支持我重新提取新数据,包括上面假设里的一些关键字段(在该分享会上,我首先承认遗漏上述关键字段是我的责任,但同时我也指出在前期的字段讨论中,业务方将近20人参加讨论也没有人想到跟H层定义有关的那几个关键字段),同时,在这次会上,业务方根据自己的经验提出的另外一个关键字段在后来的模型中证明是最重要的一个预测字段。第三次重新提取经过增添的新的原始字段,按部就班,最后跟上面的直观猜想进行验证,发现这个直观猜想不成立(放心了),并且(由于增添了几个关键字段)新的预测模型比第二次数据建模的效果要提高6个百分点,最后,经过最刺激的开门见山的跟当时最新的实际数据验证,模型实际精度与建模时的测试精度完全吻合(说明很稳定可以投入业务试用);前期建模完成,数据分析挖掘告一段落,接下来是提交运营方开始试运营,每周一按照该预警模型,跑数据,预测14天后最有肯能流失的所有用户的流失概率分数,由运营部门按照流失概率分数从高到低,排名最前的30%的目标群体进行进一步的分层的精细化运营。我在模型投放业务应用的分享会上,重点提醒大家“再好的模型也只是业务应用万里长征第一步,接下来的落地应用任务更加挑战,更加复杂,也更加有意义”。下面节选的三个PPT是我当时在模型交付应用之前业务分享的几个主要分享点:

数据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万里长征第一步) - 数据挖掘,人在旅途 - 数据挖掘 营销应用

 

数据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万里长征第一步) - 数据挖掘,人在旅途 - 数据挖掘 营销应用

 

数据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万里长征第一步) - 数据挖掘,人在旅途 - 数据挖掘 营销应用

  

落地应用环节的重点分享:

感谢上述流失预警模型的落地应用的运营部的同学们,尤其感谢牵头的资深运营专家MS。跟踪、关注、参与你们的运营过程实在是在下的好享受。从11月13日开始,第一次打分后,提取最可能流失的30%的H层用户中,随机抽出其中10%的用户作为观察组(不做运营碰触),其余90%的目标用户由运营方根据他们经验中提取的几个核心指标进行人群细分和相应的运营方案细分(这个动作是我之前的很多模型落地应用中不同的地方,因为本模型的关键预测变量在业务方看来都没有运营应用“噱头,话题”的价值,所以他们提出了另外的几个字段来提炼细分方案,目前看来他们的方案起码还没有明显错误的)。首先应用的运营通道是电子邮件运营(EDM),包括观察组在内一共7个细分群体(其中6个群体进行不同内容和宣传的细分运营)持续两周时间,现在到了揭开神秘面纱的时候了,呵呵!!!

第一次模型投放试运营为期两周,随后运营方做了详细的阶段性(2周)运营总结分析报告,先摘录如下:

数据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万里长征第一步) - 数据挖掘,人在旅途 - 数据挖掘 营销应用

 

数据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万里长征第一步) - 数据挖掘,人在旅途 - 数据挖掘 营销应用

 

 

从上面的运营效果报告里,可以看出,首先,预测模型到目前为止预测的准确率和稳定性还是很好的;其次,在第一轮电子邮件运营的六个不同细分群体的效果看,有的效果好,有的效果不好,具体原因有详细归纳;第三,综合对比运营群体和(没有运营的)对照组群体的14天后的流失率,两周没有明显差异。

对于上面的第三点,运营方主要归咎目前邮件运营通道阻碍、效果不好;其实,在我看来,既然第二点明确总结了有的运营细分群体效果比较好,有的不好,那么总的运营群体从逻辑推理上讲其运营效果一定会或多或少比(没有运营的)对照组的对应效果要好的吧。如何解释第三与第二点之间的貌似的“矛盾”呢?原来,这里出问题的就是来自运营方的KPI考量。从科学的合理指标看,上面总结的第二点,已经给出了合理评价现阶段运营效果的方法。但是,作为一个专门的运营部门,它希望本次活动的评估的指标能跟自己的部门KPI挂钩,而这里的KPI就是H层流失率的降低,从上面第二点里的合理评价效果的指标到这里的KPI,中间有个过程的,实际上是个从量变到质变的过程,如果强行忽视这个从量变到质变的过程,强行按部门KPI考核这个为期2周的阶段性运营活动,当然很难满足这个KPI的要求了。

上述情况,应该跟你在留言里提到的情况非常类似了吧,这里的关键是业务部门的认识问题,有急功近利,有大跃进思潮,这其实就是对“数据化运营”的一种误解,是蛮干,是霸王硬上弓。打个比方,婚恋网站百合网如果做一个营销活动,那么这个小活动的评估指标应该是本次活动带来的牵手数量或者报名数量的,但是如果你一定要把本次活动带来的“领证结婚的数量”作为活动评估指标,你说是不是要求有点急功近利???

当然,运营方式的变通也是一个探索的方向,比如本项目的落地应用,在上面的邮件运营之后,目前正在运营的方式是在线即时通讯IM的运营,根据我以往的项目经验,在线运营的通道和方式中,IM的效果总体来说是高于EDM的,目前运营正在进行中,运营方随后会有阶段性的效果报告和总结归纳。

综合我曾经碰到的类似你在留言里提到的落地应用不好的原因,除了上面提到的这个普遍性的原因外,还有:

落地应用的资源是否有保障,比如营销资源,促销预算,这些都是打仗的枪炮子弹,有还是没有,多还是少,对于运营效果有显著影响;

运营团队的数据化运营的能力,能有效细分受众,高效设计运营方案,有效执行在线运营方案,全程跟踪记录过程数据,能及时总结归纳提炼运营效果报告。我很庆幸在本项目中合作的资深运营专家MS在这方面非常专业,我从中也学到了不少新的经验和体会;

数据化运营是企业全方位竞争的综合较量,不是单单一个好的或者精准的挖掘模型就可以一了百了的,很多时候,业务部门只有这个产品,哪怕这个产品用户不满意,但是短期内还是要促销要推广这个破产品,这个时候指望数据挖掘去忽悠用户吗?数据挖掘可以通过分析提出产品改进的意见和建议,但是业务部门或者说企业决策层更希望的是急功近利的用数据挖掘模型去抢占市场,去推广新用户,这样能有好的效果吗?

世尊已经准确预言了当下的时代是末法时代,温和点说的话,末法时代的特点就是人心浮躁,社会浮躁,企业浮躁,决策层浮躁,这么多浮躁中,你要想数据挖掘落地应用真正开花结果,需要多大的平和的心态去抵御如此之多的浮躁。

所以,虽然上面列举了4个原因来与你探讨你留言里的困惑,其实,我觉得根本的核心是我们自己的心态,是否有平和的心态包容的心态感恩的心态去面对业务方、面对数据挖掘这个专业爱好。有了这个平和的心态,我们才可以真正脚踏实地帮助业务方提升他们的数据化能力,才可以务实的渐进的稳扎稳打推进项目的落地应用,才可以真正在企业里传道布道“数据化运营的理念和实践”。

把一个模型建好后就丢给业务方去落地应用,自己从此不闻不问,这种人其实算不上是“数据分析师”,再完美的数据挖掘模型也只是业务应用万里长征第一步,路远,风景更美!!!

最后,告诉你一个小技巧,作为数据分析师,应该选择什么分析主题或者课题呢?一定一定要选择来自业务需求最强烈的最迫切的,只有这些最迫切的需求,才可以最大限度取得业务方的支持和配合,刚开始做分析的人如果对环境不了解,对业务方的人员不熟悉的话,切忌自己自作主张想当然按照自己的想法去做个专题或者课题,闭门造车的后果一定是业务方不买账,效果不好。

当然,等你熟悉了企业的环境或者人际关系,等你做出了几个得到业务方肯定的课题或者应用后,你应该分出一部分精力去思考业务方没有考虑到的或者你觉得有意义的课题,但是前提是你已经真的比较熟悉业务背景,已经比较深入融入了企业的运营中了。

新年快到了,啰啰嗦嗦写了这些废话,希望你新年快乐,大家新的一年共同进步!!

  评论这张
 
阅读(1525)| 评论(2)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017