注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘与应用实践(24,新药研发中的数据挖掘)  

2009-03-02 09:22:45|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

本案例参考Michael S. Lajiness <<Using EM to Explore Drug Discovery Data>>

案例概述:现代医药研发中最大的挑战之一就是有效地管理和探索海量的实验数据。如何从浩如烟海的实验数据中发现那些稍纵即失的稀稀拉拉的闪光信息,数据挖掘技术可以比较有效地胜任之。本案例主要介绍如何利用数据挖掘技术挖掘那些我们希望找到的有很强生物活性的潜在药物的分子结构。现代药学中药品研发的常规做法就是用筛选法(Screening)对成千上万的混合物的生物学试验来确定某些对特定疾病有明显疗效的混合物,其中最有效的混合物(就叫“hits”),接下来会被挑出来继续试验,直到最终目标出现,即确定的(我们要找的)有具体的生物活性分子结构的化学合成物。很显然,这种常规的筛选方法非常耗时低效,现在我们介绍数据挖掘这个更加有效的新方法、新应用(在药物研发)。

具体挖掘过程:本项目首先的一个重要步骤就是如何将药物分子结构这个空间概念转化成数据挖掘可以分析的数据概念,也就是如何用数据来表示千差万别的化学分子结构,从而可以用数据挖掘的方法来分析化学分子结构与生物活性的关系。现在有一些方法可以解决这个“数据转化”问题,由于跟本项目挖掘主题关系不大,我们不作深入介绍,本项目采取的转化的方法是BCUT,它现在是比较主流的将化学分子结构转化成数据格式的一种方法论。项目所分析的数据来源于一组从海量数据中提炼出的代表不同结构特征的混合物一元胺氧化酶(Monoamine Oxidase)数据,我们的目的是通过数据挖掘来开发一个模型,该模型可以发现活性最强的分子结构组成。所分析的数据共1644个样本,每个样本都有71个详细的指标。模型的目标变量就是“生物活性”,这是一个ordinal 变量(0代表没有活性,3代表活性最强)。本项目一共尝试了决策数、逻辑回归、神经网络等三种算法来搭建该模型,最后综合考虑,推荐的模型是决策树模型。至于详细的上述三种算法和搭建模型的过程,对于数据挖掘者来说,都是些再熟悉不过的普通技术,我实在没有兴趣在这里罗嗦。

博主点评:本案例的一个亮点就是“如何将空间概念的分子结构化成数据分析可用的数据格式”,尽管这个技术跟本项目的数据挖掘技术是不相干的,但是另一个方面也启发我们,“没有数据的时候,如果能创造数据,一样也可以进行成功的有实践价值的数据挖掘”,我很欣赏这个“无中生有”的数据挖掘精神。另外,本项目在实验室海量数据的成功挖掘,也给我们广大研发人员和机构提供了一个很好的样板,说明数据挖掘一样可以在实验室里对实验数据进行高效挖掘。我的一生能否也做一个实验室的数据挖掘项目?我很期待也非常有信心,呵呵。如果成功如愿的话,我就可以是当之无愧的“科研人员”。人在市场营销和数据挖掘里混久了,想偶尔换个行头,“科研人员”这个白大褂不错,我喜欢,哈哈哈哈,套用金圣叹的名言,“市场营销和数据挖掘之匠人,偶尔披件科研人员的白大褂附趋风雅,不亦乐呼!!!”。

D/经典实战项目/Drug Case [PDF]

  评论这张
 
阅读(363)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017