注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘与营销实践(5,刑事侦探中的数据挖掘应用)  

2008-11-03 09:08:27|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

本案例参考Shyam Varan Nath <<Crime Pattern Detection Using Data Mining>>。

案例概述:本项目主要采用聚类算法,帮助刑侦专家分析刑事案件的作案模式风格(crime patterns),加快破案速度和效率。原始数据来源于警察局刑事案件档案,挖掘过程中利用刑侦专家的专业知识和经验帮助挑选主要变量参与数据挖掘分析。所谓刑事案件的作案模式风格(crime patterns),在这里主要是指某类相似案件的做案手法和特征形成的独特的个性特征,举个最简单的例子,比如某地的连环杀手、连环大盗,从这些连环案件的特征看,明显是同一个嫌犯(或同一个犯罪团伙所为)。利用数据挖掘技术,可以从大量貌似不相干的案件中,通过聚类技术找出相似的案件归为同一类。聚为同一类的案件,一定是在很多特点、指标上非常相似,而这些相似常常表明是同一个嫌疑人(或同一个犯罪团伙)所为,按照此分析思路和分析线索,刑侦人员常常就可以比较明显提高破案效率。

具体挖掘过程:首先碰到的难题就是原始数据的整理,警察局有关案件的数据浩如烟海,其记录格式主要分为两类,一类是常见的电子记录的格式,一些指标(变量)都有明确的定义和输入(比如姓名、地点、时间、案件性质、受害人年龄,等等);另一类是调查人员手写的一些重要发现、观察和推测,这些完全没有统一格式、统一标准、统一规范的随手记录(free text field),如何把此类信息(数据)转变成数据挖掘所需的数据格式,是本案例的第一个挑战。接下来,是挑选参与聚类分析的变量(指标),这里必须要求刑事侦破专家利用他们的专业知识和经验帮助数据挖掘专家挑选出合适的变量指标参与数据挖掘的分析(指标太多,聚类的结果一定是没有意义的,指标不合适的话,聚类的结果更是误导的,所以挑选合适的指标是非常关键的步骤)。另外,不同种类的犯罪所对应的指标是有不同的权重的,比如对凶杀案来说,受害人的年龄是很重要的变量,但是对入户盗窃案件来说,受害人的年龄相比而言就不是很重要的变量。此类权重的分配问题,也是依赖于刑侦专家的帮助来确定的(关于变量的权重问题,似乎是一般聚类分析所没有涉及的,因为在一般的聚类分析中,参与分析的指标的重要性都是一样的。但是考虑刑侦项目的特殊性,也考虑到我们项目的刑事专家们丰富的专业经验和知识,本项目中采用了权重这个进一步细化的技术,这也是对聚类技术的一种新的尝试和探索)。总的来说,本挖掘模型经过实践证明可以从大量的案件档案数据中比较准确发现典型作案手法风格的类型,从而有效帮助刑侦人员破案。本项目的不足在于,关于作案手法特征分析技术只能帮助刑侦人员破案,却不能完全代替他们的工作,另外原始数据的整理、转化也存在不尽如人意的地方,这也在一定程度上影响了挖掘效果。我们接下来的项目是希望能对各种犯罪的地点、时间作出系列预测模型,这就可以充分、科学、有效地布置警力,防患于未然。

博主的点评:本案例最大的亮点在于告诉我们,一些基本的挖掘技术(比如这里的聚类技术)一样可以在实践中发挥大作用,这应证了我一直的观点,“数据挖掘,最关键的是应用”。看看我们目前,很多人都在脱离实践地闭门造车、穷究所谓的高级技术、高级算法,实在是可笑的很。一切以实践为出发点,一些以解决实际问题为唯一的评价标准。其他的所谓花架子、高级的理论,如果不能解决实际问题,那最好用一句武汉俏皮话“洗了脚,去睡吧。”

File:  D/中国数据挖掘项目/刑事侦察/crime-patterns [PDF]

 

  评论这张
 
阅读(368)| 评论(7)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017