注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘交流讨论(23 ,与“汪生”分享我对于聚类实践应用的个人体会)  

2010-03-11 20:26:24|  分类: 数据挖掘交流讨论 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

背景介绍:读者“汪生”2010年3月10日在本博客留言“文章中先生经常提到聚类分析,但我们在实际应用中经常得不到想要的结果,比如把销售成功率高的客户分为一类。我想请问一下,对于变量很多的情况下,如何选择合适的变量进行聚类。先生能否分享一下您做聚类的经验。”

我的回复:承蒙汪生抬举,先生之称实不敢当,我充其量只能算是个热衷数据挖掘营销实践的闲散“痴人”,比较逍遥自在而已。跟高兴跟您分享我对聚类技术在营销实践中的应用的个人浅见,既然是个人浅见,水平有限,欢迎批评指正。因为我是做营销应用的,所以任何数据挖掘任务我考虑的最重要的“必须”是挖掘结果的营销应用“可执行性”,这个“可执行性”主要包括挖掘的结论要有足够可用来执行的目标群体数量,挖掘结论的解读是明白易懂且尽量符合业务中的逻辑直觉, 挖掘结论有基本的运营效果的预先判断(不能心中无底,听天由命)。

针对具体的聚类实践来说,有下列一揽子比较重要的“军规”是成功聚类应用所必须遵守的:

第一,   参与聚类的变量不能太多,本着尽量精简的原则,首先相关性强的变量不要重复录用(比如登陆次数,在线时长,PV浏览量等这些变量相互之间基本上都是明显的相关的,只取其中一个变量基本上就足够了,多了有害无益);其次,预先跟运营(业务)团队沟通,可以从大量的无用字段中筛选出数量少得多的有价值变量;再次,很多国际大公司所做的聚类项目,有很多都是用数量有限的精简字段进行聚类分析,再用更多的辅助字段进行聚类后的各个群体描述之用,这样既能提高聚类分析的分析效果,也能尽量满足随后的营销应用所需的信息丰富的要求。

第二,   遵循数据挖掘的基本原则,任何数据挖掘项目都是有明确特定的挖掘任务定义的,做聚类分析也是如此,聚类之前应该有明确的聚类应用目的,根据这个目的挑选一些相应的字段(举个简单的例子,如果我们想知道在这一万个用户样本中,有产品使用不同的习惯的群体(以此调整我们的客户服务),我们会考虑把产品使用频率,产品档次,主要损耗件的类别等作为其中的聚类字段来优先考虑;而如果我们想知道这一万个用户样本中,有不同的购买习惯的群体(以供营销策划参考),我们会考虑把付费的方式,产品档次,是否响应促销等等作为优先考虑的聚类字段。这个例子主要是想说明,任何具体的聚类项目,都应该事先在脑海里有一些基本的相应的字段可以跟该具体项目相“匹配”,而不能象目前一些人的操作那样不管什么项目什么任务什么目的,反正一股脑把所有变量统统放进去,这种胡子眉毛一把抓的做派是没有任何意义的。至于你提到的“把销售成功率高的客户分成一类”这个具体的问题,还是应该回到前面所说的关于“聚类的应用目的和任务描述”,什么叫“成功率高?”,可以定义为售前沟通所需次数少,购买决定做得快(时间短),对营销活动响应积极,等等,到底如何定义,要看你具体的数据表现形式(是否支持这些字段)和业务模式,如果我这个理解是符合你的业务实际情况的话,把这些提到的一些关键变量作为其中的聚类指标,再加入其他重要指标,应该是可以有效回答你的业务需求的。纵然我的上述理解不符合你的业务实际情况的话,按照这个思路基本上也是可以帮助回答业务需求的,因为思考问题的框架和思路是基本相似的。

第三,   数据挖掘是个充满想象的艺术,很多时候需要一些衍生变量来画龙点睛。我们常常容易从现有的数据库中提取现成的字段,而经常忘记了一些衍生的新字段(比如:比率),很多时候,我们的分析中有太多的直接提取的绝对值的字段,而常常忘记增添一些有价值的相对值(比率)的字段。什么时候考虑一些有价值的比率字段,这个是需要业务知识和挖掘经验来支持的。

第四,   “包容并蓄”是做人的态度,也是做事的态度,当然适合数据挖掘(包括聚类分析实践)。项目实践中,我们应该多尝试不同的方法,不同的思路。既要考虑基于Ward的聚类方法,也要考虑基于K-means的方法,还可以考虑SOM方法;对于很多我们感觉都不错的分析变量,可以分别或组合进来进行聚类分析,看结果有什么不同,根据不同的结果对比自然就可以发现最值得考虑的聚类变量以及那些没有效果的变量。任何事情都是奉行“勤能补拙”的,多尝试不同的变量,多尝试不同的算法,一定有效果的提升。尝试几次之后,哪些变量有聚类价值,哪些没有价值,自然而然也就泾渭分明,八九不离十了。

第五,   去除明显的极值,可以提升聚类效果(不过,这个话也可以反过来说,聚类分析常常用来发现极值);一些基本的聚类技术基础,关键评价指标等等都是必须的,比如评价聚类结果的最常用的几个判断指标就是RMSSTD (root-mean-square standard deviation, 该值越小,表示组内的个体相似程度越高;R-Square, 该值越大,表示组间的相异程度越高,分群效果越好;SPR (semi partial- square)越小,表示新形成结合群体时,损失的群内的相似性越小,新群体的群内相似性越高。诸如此类的这些评价指标都是判断聚类结果的一些重要依据。这些虽然是雕虫小技,但是作为技术基础是不可或缺的。

第六,   世上万物都是一个道理的,我记得以前听过一个著名老中医说过这样一句话“世上只有未知之病,没有未治之病”,世上的任何病都是可以治好的,只要你能真正清楚了解了病的真正的原因和机理。我们做数据挖掘的时候,也应该有这个坚定的信念。在战略上藐视项目,在战术上重视项目,有了这个淡定的心态,做任何数据挖掘都不会差到哪里去的,心态的重要性由此可见,与君分享!!!

上述的个人浅见,难免挂一漏万,欢迎有缘人不吝赐教,谢谢!

  评论这张
 
阅读(1079)| 评论(5)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017