注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘实践应用(93,“目标用户特征分析的不同思路分享”及“2011个人年度总结”)  

2012-01-20 19:11:49|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

本日志的缘起:本文是我年后在数据分析团队内部分享的一个专题项目的思路汇总,条条大路通罗马,任何一个数据分析课题也一定是可以有不同的思路不同的算法不同的技术殊途同归的,我的分享的目的在于通过真实的业务需求和业务数据,引导分析团队内部集体讨论,发动大家参与,相互切磋,从而提升数据分析团队整体的分析能力和水平。我惭愧我自己是三十岁才从落魄的机械专业末等生半路出家跌跌撞撞搭上了数据挖掘的朝阳航程,一晃十多年拿着数据挖掘的空钵子在这个世上混吃混喝,我对自己实在是充满了鄙视和无语,但是换个思路看的话,我勉强做个“抛砖引玉”里的那个破砖,也算是对东家,对互联网行业,对目前不少热爱数据挖掘实践应用的有缘朋友的一点点巴结和效劳吧。我一直觉得从战争中学习战争是最好的提升战斗力的途径和方法,真心欢迎现在世、未来世的批评指正!!!

项目背景:P4P(在线广告竞价排名, payment for performance)产品是互联网行业平台型企业的一个重要收入来源,由于组织架构的因素,以前我们的P4P产品的相关数据挖掘模型(比如付费用户预测打分模型)是由数据仓库团队、算法团队开发、嵌入、固化业务流程,人工的销售服务还没有类似的分析模型可以支持。最近,随着新的组织架构调整,电话销售团队承担了P4P产品售卖的部分KPI, 业务方因此提出了新的需求,“找出P4P消费用户的典型特征,由此可以让电话销售团队因地制宜圈定不同的目标群体,并同时制定相应的不同运营卖点,即运营抓手”。(提请注意的是,这里的典型特征不是指单一维度的分布特征,而是要找出多维度并存组合时的特征)。

很明显,这里的业务需求就不是前期的“P4P目标付费用户预测打分模型”可以满足的;两者有什么区别呢?从数据挖掘理论上看似乎可以没有区别,但是在业务实践场景下,差别太大了。“打分模型”的产出物是一批潜在用户的member_id 以及相应的付费概率数值,业务方不需要在乎模型里面的具体的预测变量有哪些,变量之间的线性或非线性关系,也不需要知道各个预测变量的阀值;打分模型的优点是精确,效率高,缺点是每个周期都要打分,而且比较死板,缺乏灵活性;而“付费用户典型特征模型”的产出物是不仅要找出付费用户典型特征的字段(这里的特征是不仅在统计上有意义,更要求在业务应用中有意义,有实用性。很多时候,统计上的显著性到了业务实践中其实并没有应用价值的,最典型的一个例子就是,付费用户中男女比例52:48,相对潜在目标群体来说,这个比例从统计学上看是显著的,但是在实践应用中,单纯看这个性别的显著性特征其实是没有什么运营价值的,没有谁会因此聚焦在男性群体里进行营销),更要找出这些典型特征字段组合在一起的数值区间阀值(比如近30天的登录天次大于25天,并且近30天交易订单数量大于15,等等);“付费用户典型特征模型”优点是灵活,可以由业务人员(电话销售)灵活组合不同的目标群体,但是其应用的(预测)准确度通常来说是没有“打分模型”高的;

“付费用户典型特征模型”以及类似的此类“典型特征”模型,有个核心的终极评价标准:优良的模型(准确的字段以及合理的相应阀值)能最大限度包含付费用户的数量,同时按照这些阀值圈定的运营受众的数量范围能满足运营资源的负荷(比方说,如果分析用的原始数据里有1000个付费用户,而这些付费用户是从10万个俱乐部会员中产生的话,那么一个比较满意的“付费用户典型特征模型”(即典型字段以及相应的阀值)能覆盖80%(左右)以上的付费用户(也即800个左右的上述分析数据中的付费用户包含在这些典型阀值的区间里),并且在10万个全体的俱乐部会员中,满足这些条件的用户在2-3万左右(这里的数据、比例只是为了举例方便,实际应用中的原则是阀值覆盖的付费用户数量尽可能多,满足这些阀值条件的潜在目标受众尽可能精简,如果上述例子中,分析的结果阀值是有8-9万人满足这些条件,那从全体10万人的基数看,这个8-9万的筛选其实并没有多大的效率的提升);

这样看来,“付费用户典型特征模型”从思路和分析技术上看可以分成两步:

第一步,确定有明显特征差异的字段,

第二步,确定这些显著差异性字段的各自的阀值。

 如何有效锁定“有明显差异的字段”?有三种不同的思路以及更多的具体的算法:

我们可以按照预测模型的思路,通过逻辑回归、决策树、(R Square \Chi_Square等不同的算法);

我们还可以另起炉灶,按照假设检验的思路,从付费用户和非付费用户中抽取等量的样本进行T检验和(或)者非参数检验,尝试这个假设检验的思路时,要注意,样本的抽取数量不能太少,也不能太多(样本太少,比如20-30个,很多显著性的差异也变得似乎不显著;样本太多,比如几万,很细微可以忽略不计的差异也变得显著,这样在实践应用中没有意义,这是大数定理);

第三种方法就是利用聚类技术,尝试不同字段组合进行聚类划分,这种方法的优点是快速,缺点是聚类技术很多时候的结果不可控不可预见,常常不能令业务方满意,而且参与聚类的字段如何挑选,还是有赖于前面两种思路的探索和实现的(关于聚类技术的判断,详见我之前的博客(数据挖掘交流讨论之23,与“汪生”分享我对于聚类实践应用的个人体会)  http://shzxqdj.blog.163.com/blog/static/81670577201021182624854/

如何确定显著差异性字段的各自的阀值?至少有三种方法:

第一是聚类技术,不过这里稍微要延展一下,我自己的体会,在互联网的实践中,有不少项目的直接的聚类结果并不能令人满意,主要原因在于单纯聚类评价的指标(R Square, RMSSTD root_mean_square_standard_deviation等等)关注的是总体上的宏观上的结果评价,而如果这些字段的各自的标准差比均值大很多的时候,这些总体的宏观的判断指标会明显无法胜任合格的效果评判,结果是这些总体指标看上去可能比较满意,但是具体到各个细分出来的群体里,这些关键字段的分布过于分散,由此可以想见其均值是没有实际参考价值的;但是,就算如此,聚类技术至少可以给我们一些思路和启示,告诉我们哪些字段可以组合进行阀值权衡,这后一种方法我最近多次采用,效果比单纯聚类结果要好些,已经在业务项目中得到了验证。

第二种方法,就是分析师人工尝试,比如利用excel的透视表,按照前面的“典型特征模型的核心终极评价标准”来做判断和决定。

第三种方法,决策树的结果,如果决策树模型效果不错的话,从树根到树叶的几条显著的组合就是很好的答案了,不过在实践中,决策树模型是否能如我们所愿有好结果,要看具体项目数据是否有这种逻辑关系存在的!!!

“说的再多,也是说食不饱,哪有这多啰嗦,各位还是参,参,参”我喜欢虚云老和尚的单刀直入,各位,业务分析需求在这里,数据在这里,对数据挖掘应用感兴趣的同事,按照上面的框架尝试把!!!

附录:2011年年底个人总结:

1.         坚定了一个信念:互联网数据挖掘应用是个广阔的天地,感兴趣的人可以大有作为;

2.         流连忘返于杭州的两个地点:杭州的虎跑公园(闹市中的好幽静,古树参天,禅味隽永,弘一大师音容宛在,有山有水有松有竹,层岚叠嶂,不过在里面买的一瓶“虎跑泉矿泉水”开盖后赫然发现有显著的黑泥漂浮,末法时代,人心不古,世尊所言不虚!另外,杭州的九溪,是夏秋郊游的好去处,十公里长的溪流,在绿油油的茶山拥抱下潺潺流过。炎炎夏日里,双脚泡在清澈见底的溪水中,那份爽快可以让知足惜福之人感恩自然。溪流两旁是数不清的农家乐茶座饭桌,丰俭由人,最适合团队或家庭小憩;

3.         结缘了三位善知识,打工挣钱养家糊口之余,喜欢拜读虚云和尚、圣严法师、南怀瑾居士的著述。我自己的确很惭愧,信心不坚,慧根太钝,胸无大志,偷奸耍滑,到如今一事无成,一天到晚披着身臭皮囊,不僧不俗,自己对自己恨铁不成钢,惭愧的狠。希望2012年的我能精进,能勤勉,能种些福田,能长点慧根,能少点遗憾,能多点感恩;

4.         换过四个主管,调过四个团队(全是被动的,全是因应互联网行业的日新月异的行业节奏特点和竞争态势,由此可见互联网行业的易变性,也真心体会到互联网行业大佬们守成的艰辛,出世难,入世也不容易呀);想想百度、腾讯、阿里,能在互联网行业颠簸飘摇的这么多年一路走来,真的不容易!!!

5.         8月底开始连续五周时间吃素没有任何不适,窥斑见豹,人的潜能真的是无穷的;

6.         六次考试(包括笔试、场考、路考、三次补考),拿到C1驾照,教车教练的简单粗暴在我的淡定面前毫不起作用,你吼你的,我练我的,前世我骂过你,现世你吼回来,两清了;

7.         独立承担(或牵头、负责、指导)PM,XP,WP,FTP, SDRZ,HKT,等七大产品线的全部的运营数据分析挖掘支持,包括新签、续签预测模型、客户分层模型、优质定义分析建议书、活跃度定义划分建议书、用户行为轨迹分析报告以及在各业务领域( PD,UED,运营、客服)的应用建议书,交叉销售模型、运营效果评估模板、运营效果提升的应用模型、客户流失预警模型、服务细分模型;所有分析模型、分析报告、建议全部在实践落地应用中得到检验,模型应用准确率基本上都保持了相当的稳定度和准确度(除了SDRZ这个新产品刚刚上线正在进行中外);一分耕耘一分收获,当你对一份工作,一分职业、一分爱好,充满了爱,充满了兴趣,在这个领域你想不做好都很难!!!

8.         学会并习惯使用了电商时代八种新工具新事物,淘宝的聚划算、阿里的良无限、支付宝的在线支付(支付飞机票、支付水电费电话费、朋友间的收钱与付款)、2011年岁末的火车票在线预订与支付(2011年岁末火车票在线实名预订并支付绝对是中国铁路百年历史上值得提及的一件历史进程)、淘宝的拍卖会(买到了与我有缘的和田羊脂玉、青白玉、青玉)、淘宝的付邮试用、手机下载风靡世界的游戏“愤怒的小鸟”(这个小鸟绝对是2011年最成功的手机游戏产品)、淘宝商城(现在的“天猫”)的积分换购的乐趣;

        9.        这一年驻足了、体验了九座个性鲜明的城市(或旅游、或团建、或会议、或定居)(北京的海淀、上海的浦东、厦门的鼓浪屿、嘉兴的南湖、绍兴的鲁迅故居、武汉的辛亥首义起义门景区、人间天堂杭州、奔腾潮涌的浙江海宁盐官古镇、还有梦中神游的广东韶关的南华寺(那里是禅宗六祖慧能圆寂之所,六祖肉身至今一千三百多年不腐,2012年,我要去南华寺参拜亲近各位古佛大德善知识);
  评论这张
 
阅读(2544)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017