注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘营销案例(56,营销项目中数据清理过程展示)  

2009-11-24 09:47:25|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

背景介绍:本案例翻译并整理自Mamdouh Refaat的《Data Preparation for Data Mining using SAS》。由于该书的侧重点是数据清理准备而不是模型建立,所以本案例主要分享的是关于书店的数据库营销项目中的数据清理准备阶段的实际操作细节,至于随后的模型搭建和其他环节由于不是该书的重点,所以一笔带过。本案例中浓墨重彩分享的数据清理的实例因此明显有别于我们常见的侧重于模型搭建等环节的案例分享,也是本博客诸多有关真实案例分享和讨论中,第一篇侧重在数据清理阶段的真实案例分析。

Random Magic Books 公司(以下简称RMB)是一家专业的图书零售连锁机构,主要为其客户提供以下五类图书商品(儿童读物children, 自己动手DIY, 旅行图书travel, 计算机图书computers, 小说fiction)。RMB目前已经上线了一个客户忠诚管理系统,注册消费者通过该系统可以享受折扣和其他积分礼品。RMB公司目前拥有5万名注册的忠诚计划的客户,在一次促销活动中,公司随机抽出5千名注册的客户,向他们发放了价值10元的购书消费券,该促销券有效期为10天。公司希望通过这次促销活动的反馈记录,利用数据挖掘技术来搭建一个促销响应模型,为接下来的第二次促销活动锁定最有可能响应的潜在客户,从而有效提升促销效果。为了明确定义模型的目标变量,现在有下列简化性假设:

第一,   所有被发送消费券的客人在消费券有效期内的消费购书行为都视为是本促销活动的响应效果。

第二,   在确定响应效果时,客人的实际消费金额的大小是不予考虑的,也就是说,哪怕是客人只是消费所赠送的10元金额之内,也算做有效的促销响应。

由于公司还没有数据仓库,所有的业务数据和消费者数据都是储存在不同的数据集中,包括:customers数据集(含有所有注册的5万名消费者的注册数据)、books数据集(包含1万种图书的系列号码,大类号码以及相应的零售价)、book categories数据集(主要用来解释各图书大类的定义)、transactions 数据集(记录了全年的共计250139笔流水销售记录,每一笔流水记录包括消费者代码、图书代码、消费日期、付款方式、购书数量)、campaign数据集(包括该次5千名随机抽出的获赠10元消费券的消费者代码)。

项目任务:本营销项目的数据清理共包含下列的几个任务:

第一,   数据的获取和整合:将分散在上述各个不同数据集中的相关数据基于消费者代码来进行整合,并增加如下变量,包括(目标变量dependent variable,即消费者是否响应了促销;消费者变量candidate independent variables,消费者年龄、有效时间段、性别、城市;交易变量transaction variables,即消费者年度总消费金额、消费次数、主要消费的图书类别、主要使用的支付方式,等等)。

第二,   数据的完整性检查,建议对下列变量重点检查:消费者性别包括男、女和空缺,其他的输入都可以认为是错误输入,应该转化成空缺(missing);消费者年龄应该大于16岁(这是公司客户忠诚计划的硬性要求,也是客户注册的必须要求),所以凡是年龄低于16岁的记录都应该被认定为错误输入,要统一修改成16岁;客户注册忠诚计划的时间应该早于公司该次促销发放的时间,凡是与该逻辑不符的记录都应该被认定是错误输入,应该删除;

第三,   建议做一些变量的转换(transformation),对于城市属性、性别、支付方式、图书类别等这些变量,由于是类别型变量,考虑是否通过虚拟变量的方式将其转化;考虑是否将年龄通过区间划分的方法(binning)变成序数型变量。(博主注:该部分的数据转换工作是一个预先罗列的几个技术,并不是一定要用在本项目中,应该看作是数据挖掘通用型的模板的作用,提醒后面的建立模型的人员是否要做这些转换,一般来说,数据变量是否要经过转化,是要基于所选择的算法和具体模型的要求的,比如在聚类和回归中,要求将类别型变量通过虚拟变量进行转化,比如一些决策树的建模者希望将连续变量化成序列变量,等等)。

第四,   输入变量的挑选:主要有两种方法,一是通过回归技术分别考察各个变量的预测性的大小,将没有预测性的指标剔除;二是利用主成分分析方法减少输入变量的数目。上述方法分别使用,最后在挑出最理想的输入变量。

第五,   样本的划分:用随机抽样的方法将上述5千消费者的数据记录划分成两部分,一为训练集(占60%),一为验证集(占40%)。

模型搭建:由于本案例侧重于数据的前期整理和清洗,所以建立模型这个环节不是本案例的重点,也不是本书的重点。简单讲,就是利用逻辑回归算法建立模型,预测客户响应促销活动的概率。

  评论这张
 
阅读(1064)| 评论(5)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017