注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘与人生百味(80,与怪人相处)  

2008-10-14 08:44:53|  分类: 数据挖掘人生百味 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

我们生活中都会碰到一些奇怪的人和事,如何与这种怪人打交道,可能让很多人头疼。通过数据挖掘的实践,我突然发现,数据挖掘中的离群数据(outliers)的处理技术就非常全面地告诉我们如何跟怪人打交道。因为离群数据(outliers)相对于主流分布的数据来说就是类似于怪人相对于正常普通人的区别,哈哈。

数据挖掘中,对于离群数据(outliers)的处理一般有如下几种不同的方法:

第一,   漠然处理。比如Decision Tree模型中,就可以不用预处理离群数据、缺失值等等就直接进行挖掘分析;但是,这种豁达的方法只有Decision Tree算法适用,其他算法,诸如回归、神经网络等等,是没有这种豁达的胸怀的。就象一个胸襟宽广的人一定可以容得下那些心烦的人或事一样,对怪人的一种处理方式就是漠然对待。

第二,   直接去掉含离群点的个体。眼不见心不烦,这样比较简单明了,但是比较带歧视性;就好象你对某些看不惯的人和事,你对他敬而远之一样,躲得远远的,这种方法比较洒脱,比较成熟,比较老练。

第三,   忽略相应的列(用相关的信息代替);这就象如果你看不惯某些人的某些行为方式的话,你是否可以考虑发现一些新的让你欣赏的行为呢?人无完人,金无足赤,用赞赏的眼光去发现别人的闪光点,你的周围或许是另一番风光。这一招比前两招要有内涵得多,高明得多,也“以人为本”得多,非常不错。

第四,   替换掉离群点(比如用合适的均值、众数等等替换);这就是更高层次的为人处世,当你看不惯某些人的劣习时,你甚至可以用合适的手段规劝、帮助对方改正。要做到这个层次,对人的修养要求较高。

第五,   对数据等分分类(Binning),人为地把离群点的突出值通过区间划分,使突出变得不突出,使奇怪变得不那么奇怪。在对待怪人方面,这一招有点类似上面第三招。

第六,   对离群点单独隔离,通过单独建模分析,可以发现有针对性的独特结果、结论。 这就象一个非常认真、细心的人,遇到看不惯的人和事,他非常有耐心地要高清楚这些看不惯的人和事究竟是如何造成的。这么说,居委会的老头老太太有这个爱好,赞许一下,呵呵。

人不能改变环境,但是可以用智慧适应环境;人不能改变别人的奇怪想法和奇怪习惯,但是可以让自己不受这些奇怪东西的干扰。数据挖掘中离群数据(outliers)的处理技巧,让我们轻松应对各种希奇古怪的人和事,呵呵。

  评论这张
 
阅读(168)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017