注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘交流讨论(26,与汪生讨论“网络日志分析的整体想法”)  

2010-12-10 09:10:55|  分类: 数据挖掘交流讨论 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

汪生2010年12月6日在本博客留言“关于网站日志分析,我想这是一个很大的应用领域。因为我此前没有这方面的实践经验,看过你相关的文章,是否可以分享一些你关于网站日志分析的整体想法。比如快速见效的专题,中长期专题,你觉得应该如何建设是一种良性循环和逐步提升的模式。请指点。”

我的回复:汪生你好,每次收到你的留言,我都有点苦恼又有点高兴,苦恼的是你的要求动辄就是“整体想法”,“总体思路”,颇有提纲挈领的架势,我明白自己是没有这个能力和水平去“整体思考”的;但是我也实在高兴能有这个机会(借你的提醒)尝试梳理一下自己的点滴肤浅经历经验去搭建自己认为的一个框架,这个框架虽然简陋(也贻笑大方),但是各位专家不妨将此看成我这个白痴的妄言一样的笑料吧,如果见笑之外能劳驾各位点拨本愚人一二,当是万分感谢的。是为本日志的缘由。

网络日志分析,首先(也是最基础最基本的)应该就是网络的日常监控指标的监控和分析了,可以称为“宏观分析”(是为了区别下一步能细化到特定用户ID的精细化“微观分析”);关于日常监控指标的描述,我在上一篇交流讨论日志,数据挖掘交流讨论(25,与MIA探讨网络日志的分析应用)里比较详细例举了一些场景和指标。这些指标的应用与否,应用程度如何,是判断一个网站运营是否达到起码专业化的标准。目前国内做的比较好的互联网企业,一般都有专门的运营团队每天监控这些基本指标,我身边的一个典型的场景就是:每天一上班,运营团队的相关人员必定查看前一天的特定产品的主页面的PV, UV, 订购页面的PV, UV, 产品核心功能点的PV, UV, 运营活动所对应的运营页面带来的PV, UV, 出现异常波动的话一定要立即查找原因,排除隐患;接下来,每天都要根据产品使用的流程的“漏斗模型”监控每一层使用的衰减率(不同来源,不同跳出率等等),出现异常波动的话一定要立即查找原因,排除隐患;每周都要对特定运营活动的效果进行评估和跟踪(基本上是监控产品的核心功能使用情况是否随着运营活动的展开而明显提升,等等);上述所有监控基本上都没有深奥的技术含量,也没有晦涩的指标术语,但是非常重要非常有价值,完全可以根据这些简单指标发现网络的异常情况,和宏观的运行态势。一般来说,如何在日常工作中使用这些指标,是衡量一个网络运营团队的专业能力(和数据化运营能力)的基本标准和重要基础,是一票否决的(没有这个能力,一定是不专业;有了这个能力,却不一定表明是先进和优秀水准)。当然,这些基本指标并不只是被运营团队所应用,网络公司的其他部门,尤其是PD部门,各级管理层的日报,基本上都是围绕这些基本指标展开和深入的。这部分分析也可以归纳为你所希望的“能快速见效的分析”,不过,“快效”这个词在俗世基本上都是一样的德性,凡是“快速”的,一定也是相对“急功近利”的,也因此是难以持久的,人生的体会,感情的经历,商业的理解和分析,形形色色,大同小异尔。做企业也好,做运营也罢,“快速”这样的想法不应该是主导思路,扎扎实实,循序渐进才是正道。

上述基本指标的监控,有两种手段,对于大型互联网企业和立志成为大型互联网的企业来说,都是有专门的数据库(数据仓库)开发专门的BI平台自动每天生成上述海量的监控指标,用户各取所需的;对于小企业和个体网络从业者,可以借用专门的收费(或者免费)的网络指标监控工具,最简单的是比如CNZZ, 51yes,51.la, 量子统计,等等都有很多的,呵呵。

不过,现在的互联网竞争已经非常激烈了,无论是大型互联网企业,还是淘宝上的个体小卖家,仅仅根据上述基本指标作“粗放的”宏观监控,想要提升商业竞争力保持竞争优势,已经开始显得“越来越不足够保证竞争优势”。基于这个残酷的竞争压力和现实,网络日志的分析开始进入深一层次的相对精细化的深入分析,由此有了下面的分析应用。从这里开始,以下部分以互联网企业(而非个人网站,小卖家)为举例说明商业化网站的深一个层次的网络日志应用实践。鉴于你希望探讨“网络日志的分析思路”,所以这里还是严格限定在网络日志的分析领域(至于我现在在互联网企业做的很多的其他的分析,比如流失分析,聚类分析,预测分析,等等,因为不是狭义上的“网络日志分析”,所以,这些常规的分析排除在本日志讨论范围之外,本文还是集中在狭义上的“日志数据分析”。

上述所谓“网络日志数据的宏观分析”(宏观是指不细化到具体的特定客户ID)虽然比较基础比较简单,但是如果能熟练应用专业化应用的话,是非常有价值有意义的,所以这层宏观分析已经是当前互联网行业分析应用的主流和常规。接下来,是所谓的“微观分析”,也即能跟踪消费者ID的网络日志分析应用,在这个层面,是需要数据挖掘技术的介入的(相对来说,上述的“宏观分析”只需要简单的统计分析技术就可以了,宏观分析的意义再次说明分析技术无所谓高级低级之分,只要能解决业务问题,只要能促进业务高效发展,就是好技术,呵呵)。

基于数据挖掘技术的网络日志“微观分析”主要是围绕路径分析展开和扩展的(“微观分析”相对来说效果不是很快速的,要通过产品的迭代优化后逐步显示出来,属于见效慢的应用,对应人生的经历大抵也就是“凡是日积月累逐步进化的,一定是持久的深厚的有回味的”;路径分析目前主流应用的有Sequence Analysis和Link Analysis。前者是在著名的APRIORI的基础上增加了Sequence(顺序)的考虑,而APRIORI最为我们所熟悉的就是超级市场里的购物篮分析;link analysis 的理论基础来自与graph theory理论。上述两种算法各有所长,相互配合,共同使用。前者主要告诉我们诸如A到B到C的路线的繁忙程度和“如果那么”的条件关系,而后者更可以告诉我们诸如不同页面不同按钮的不同重要性(centrality measures)。另外,要指出的是,上述的两个算法还被人归纳合并为“线性分析方法”(用来区别另外一种方法即“树状分析方法”),可以这样理解,前者的“线性分析方法”主要是按照时间的先后顺序来串联和组织路径分析的;我之前听过公司的算法博士关于“树状分析方法”的分享,当时没有太在意,今天为了回复你的留言提问,我特地去请教咨询算法博士关于“树状分析方法”的问题,基本举例来说就是“按照实际的用户访问,比如用多标签浏览器(现在大部分浏览器都是支持多标签的)搜索list页面,从list里面点出了四个offer detail页面,上述场景,如果按照时间顺序,就是A-B-C-D-F;而按照树状分析方法,就是实际情况,为A-B/C/D/F;实现的方法就是根据每次打开新页面的时候,我们记录它的上一个页面URL,要做到这一点,需要前端配合,比如打开新页面的JS方法有些限制”;不过,目前业务应用中最常用的还是利用时间顺序的前面两种算法,至于树状分析方法,仅供参考,在未来它有可能成为主流,但是目前还没有!!

针对“微观分析”,PD部门可以希望通过网络日志数据分析用户的使用行为使用路径,“路径分析”里面可以细分成不同的目的(分析产品的功能点价值,分析用户的习惯性足迹,分析用户的不同级别和层次,等等),不同的用户群(产品核心用户分析,产品付费用户分析,产品活跃用户分析,产品高质量用户分析,等等)。基本的思路是先简单,后复杂,先点后面,这些路径分析的实战举例,我之前的博客里都有一些比较详细的分享,欢迎赐教!!

不过,我感触最深的是所谓的“网络日志分析”并不是仅仅局限于单纯的日志数据分析的,更多更有价值的应用应该是将网络日志数据分析与常规的数据挖掘分析方法相结合,这样才真正有效率有生产力。比如,不同路径特征的用户群体各自有什么典型的行为字段和属性字段特征?这个课题就是在常规的路径分析基础上更进一步延伸到群体特征描述,可以指导运营团队精准打击投放。结合我个人的体会,在互联网行业实践应用中,如果是单纯的路径分析的话,业务部门的重视程度不会很高的,因为挖掘出的结论并不能马上转化成销售额的提升(需要耗时的产品迭代,优化,才能在长期观察变化效果);而如果能再进一步结合运营需要提出深入的特征描述和群体细分建议的话,有可能立刻转化成销售效果的提升。这个例子是否能回答你的“快速见效”的希望呢?当然了,长期看,针对产品优化和迭代的“路径分析”绝对是更核心更深远的业务支持,不过具体落实到业务部门的残酷竞争中,眼下的当前的KPI是最优先要解决的。

洋洋洒洒写了这么多废话,其实并没有一个明确的“分析框架”,因为网络日志分析基本上就是这两层,但是如果能和业务需求相结合,是可以产生无穷变化和发展的;这又有点像两个简简单单的男人和女人,经过红尘中的种种缘起缘灭,可以产生哭天喊地的感情纠葛,让大多数人要死要活,爱恨情仇,恩恩怨怨,莫名其妙的。

分析技术就这么简单,但是跟业务实践相结合,可以产生精彩丰富的挖掘应用效果;

人生其实很简单,从偶然中来,“白驹过隙”的眨眼功夫又回归“烟消云散”,但是偏偏有太多的人看不透,舍不得,经过生活的演绎,展示了无数的人间喜剧悲剧,闹哄哄你方唱罢我登场。

没有复杂的技术,只有千变万化的业务应用;

没有天生是精彩的人,只有生活带给人的精彩。

生活可以把简单的人变得丰富复杂,业务应用也可以让简单的技术产生无穷的应用场景和成果。
  评论这张
 
阅读(1558)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017