注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘 营销应用

说出你的业务困惑, 看数据挖掘能否帮你解惑

 
 
 

日志

 
 

数据挖掘与百味人生(37,古典与现代的珠联璧合)  

2008-08-07 08:56:54|  分类: 数据挖掘的实践应 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

作为市场营销专业人员,我比较喜欢用新奇,创意的方式体现营销活动的高效;作为数据挖掘匠人,我比较关注数据挖掘独特有趣的实践应用。如果我设计一个广告,画面上一对中国传统舞伴,着旗袍马褂伴琵琶弹奏的十面埋伏跳探戈,你大概不会不感兴趣吧!但是,你可能会在心里告诉自己,这只是广告,生活里不会有这样的场面。我在此万分高兴地告诉你,这的确是生活中真实的画面,请看附件数据挖掘在古老中医研究的成功应用:《基于“症-证”关联的方证判定研究》。

尽管本人不懂中医,里面相关的专业术语很难完全明白,但是本案例利用数据挖掘技术对中医方剂的证候判定的研究大体的思路,数据挖掘匠人是完全可以明白的。其实,懂不懂中医都没有关系的,从本案例的思想和思路里,所有的数据挖掘匠人都可以学到很多东西,关于挖掘在各行业的应用,关于挖掘的美妙,关于许多有趣的经历和美的享受。

生活中不缺少美,缺少的是对美的发现。数据挖掘也是如此,读完了这个中医的挖掘案例,你还会觉得你的行业很难用数据挖掘挖出精彩吗?连古老晦涩的中医都可以精彩地演绎数据挖掘,还有什么行业不能挖掘精彩呢?

感谢本案例的研究者,来自成都中医药大学的研究专家,是你们精彩的挖掘让我们分享了一次古典与时尚的珠联璧合的精彩。

 

附件:

 基于“症-证”关联的方证判定研究

 韩佩玉,陈 颖,曹 莉,雍小嘉,指导:蒋永光

 (成都中医药大学,四川 成都 610075)

摘 要:探索将新兴的数据处理技术-数据挖掘技术应用于中医方剂的证候判定中。首先对症状名称、证候名称进行了规范化,接着对证候判定标准进行了规范化,在规范化的基础上建立了数据库,通过分析研究得出,将数据挖掘技术引入到中医证候的研究中是可行的,是完善方剂主治证候的一个很好的方法。

关键词:数据挖掘;中医方剂;证候规范;症状规范;证候判定

 数据挖掘(data mining,DM)是为解决“数据丰富,知识贫乏”状况而兴起的一门边缘学科,是指从大量数据中抽取有效的、新颖的、潜在有用的以及最终可被理解的模式的非平凡过程,是从海量数据中获取知识的可靠技术[1]。随着中医药现代化研究的不断深入,中医药研究的效率和准确性得以极大提高,出现了中医药学与现代医学、生物学、电子信息技术等多种新型学科相互渗透的局面。从而使综合运用多学科进行中医药研究成为学科发展的一大趋势。近年来,作为新兴的数据处理技术,数据挖掘得到迅猛发展,被广泛应用于各学科领域,取得了很大的成功[2]。在此,笔者将数据挖掘技术引入到中医证候的研究中。

1 数据准备

1.1  研究样本的选择 由于选取的样本主要用于验证表达方证之间关系的模型,因此要求选取足够数量的方剂作为样本。并且要求这些样本的主治证候明确。笔者以《方剂学》[3](五版教材)和《中医类方辞典》[4]为基础,选取了422首基本方作为研究样本。基本方一般临床疗效较好,组成比较简单,许多方剂都以此为基础加味组成,因此,开展研究较容易,理论意义及实用价值较大。在选取过程中遵循了以下标准:药味组成较少,一般是2~8味药组成;原方具有明确的功效、主治证;原方的主治症状比较完整,一般不少于5个。

1.2 数据准备 数据准备是数据挖掘的前提基础。首先对数据进行规范,只有规范的数据才能被计算机所识别。本课题中数据的规范主要针对症状的规范,只有对基本症状进行规范,才能进一步规范方剂症状和证候判定中的主症、次症。然后在数据规范的基础上建立相应的数据库。

1.3 数据规范 数据规范过程主要针对中医症状名称的规范。中医对症状的描述常常存在不规范性,多表现为症名不规范以及症状表述的模糊性。例如:“便溏”的描述有“大便溏薄”、“大便溏”、“大便溏烂”、“大便稀薄”、“大便稀”、“大便不成形”等;“面白”可以指“面色淡白”、“面色苍白”等( 为方便研究,对这些不规范的症状参照《中医症状鉴别诊断学》[5],进行规范,选定最恰当者作为正名,其余均作为异名处理。如:对肌体瘦弱的描述有消瘦、风消、脱肉、脱形、大肉消脱、羸瘦、四肢瘦削、形体羸瘦、虚弱、羸弱等,笔者将消瘦作为正名。其他均作为异名处理。

 此外,在症状规范时还要进行症状分解和合并。症状分解是对于某些复合症,笔者将其分解为单个症状的组合。如:“胸痞闷”可以理解为“胸闷”和“胸痞”的组合:而症状合并则用于某些本身独立的症状,他们合并后又能代表明确的病机或者合并后有独立的意义。 如:脉细指脉来如线,细直而软,主诸虚劳损,尤主阴虚、血虚;脉数指脉来快速。一息五至以上,主热证;而脉细数则是阴虚火旺的特征脉象。还有一些症状经常同时出现,如:崩和漏、惊悸和怔忡、耳鸣和耳聋等。笔者在规范时,保留其独立症状的同时增加了复合症状,这样对于描述某个证的症状时不会很零散。

2 建立数据库

 数据规范后,笔者建立了基本症状表、方剂症状表和基本证候表。

2.1基本症状表的建立 基本症状是依据《中医症状鉴别诊断学》录入了904种常见症状,基本症状表包括三个字段:编号症状和症状异名。编号是按照全身部位对症状进行分类编码,如:10000为全身症状、110000为寒热、11100为但寒不热、11101为恶风、11102为恶寒、11103为畏寒.11104为寒战、11200为发热、11300为恶寒发热、11400为寒热往来、20000为头面部症状等等。同一编号对应着症状和症状异名,如:11221对应的症状为骨蒸潮热,症状异名为筋骨热、蒸热、皮肤骨蒸潮热:14200对应的症状为失眠,症状异名为不寐、不眠、无眠、少睡、少寐、不得眠;15100对应的症状为谵语,症状异名为谵言、谬语、谵

妄、多语等。该表是规范方剂症状和证候标准中主症、次症的标准。

2.2 方剂症状表的建立  方剂症状是指方剂的主治症状,方剂症状表是将方剂的主治症状经过规范后建立起来的数据表,包括方编号、原方症状和规范症状三个字段,通过方编号和方剂建立了对应关系。在建立方剂症状表时,解决了以下几个问题:某些方剂的主治症状是一些诊断性名称或用病名来表述,如五更泻.食积泄泻等,笔者参照文献将其规范为描述性症状。如食积泄泻规范为泄泻、腹痛、腹胀、肠鸣、吞酸、嗳气等系列症状;痢疾规范为腹痛、大便脓血、里急后重等;某些方剂主治症状不全面。笔者同样将其症状补充和完善,如虎潜丸,原方主治症状为肝肾不足,筋骨痿软,笔者将其症状予以补充和完善为:四肢无力、遗尿、遗精、耳鸣、头晕、膝软、腰酸、舌红、苔少、脉细、脉弱;另外有些方剂对症状的描述不直观,需要予以解释和翻译,如黄芩汤,其主治为“太阳与少阳合病,自下利者。”即为少阳热迫大肠证。笔者将其症状规范为:腹痛、泄泻、发热、口苦、舌红、脉弦、脉数等。

2.3  基本证候表的建立  所谓基本证候就是指常见的、具有明确诊断标准的证候。笔者参照《中医证候规范》[6]《中医证候鉴别诊断学》[7],录入了常见的210种基本证候。依据《中医证候规范》将证候在临床上所表现的全部症状分为主症、次症、主舌脉等,我们设计的基本证候表包括4个字段:编号、证、主症和次症。对于舌脉,由于个体差异比较大,在该表中,我们把舌脉直接录入到次症中。编号是根据表里虚实寒热、六经、卫气营血、三焦、脏腑等对证候进行分类,按照分类层次进行编码。主症、次症参照《中医证候规范》中的主、次症的标准予以录入,且主症、次症的名称是基本症状表中的症状名称。建立基本证候表是用来作为我们证候判定时的金标准,即通过被分析方的主治症状与该表的主症、次症进行相似度计算。笔者规定主症一般不超过6个;对于复合证,如气血两虚证的主症包括气虚主症 3个和血虚主症3个;肝肾阴虚证的主症包括肝的主症2个,肾的主症2个以及阴虚证的主症2个。而对于次症原则上不作限定,但是一般不超过30个。

3 采用的方法及其原理

随着数据库技术的飞速发展及数据库管理系统的广泛应用,各个领域的数据库或数据仓库都收集了海量数据。现在人们已经不再满足于对数据库进行简单的查询,而是希望借助现

代信息处理技术,得到隐藏在数据中反映事物本质和预测事物发展趋势的有用知识,并以这些知识为基础辅助科学决策。数据挖掘作为人工智能与数据库交叉融合的高级信息处理技术,是实现这个目的的有效手段[8]。

3.1数学建模过程 根据分析样本中症状和证候之间的关系,发现它们之间不是一个简单的线性关系,而是存在着某种复杂的函数关系,初步设定判定公式为:

 其中:

 a-主症个数

 b-次症个数

 为了检验该公式,选取了160首主治症状和主治证候均明确的方剂作为训练集。通过运算分析,该公式不能很好地反应出主症和次症在证候判定中的作用,出现了主症个数偏少却判定了证候的情况。不断地对该公式进行修正,最后我们得到了一个能够满足判定需要的公式为:(博客备注:具体公式在我所看的原稿中没有显示,但这不妨碍我们继续读下去,)

 该函数是能够反映随着主症a的增加而函数值增大,随着次症b的增加函数值也增大,但是随a增加的幅度大于随b增加的幅度,而且a和b同时增加时增幅更高。这是符合中医证的诊断标准的,因此笔者认为该公式是我们所需要的公式。

3.2 方法采用和原理 辨证论治是中医学的特色之一,任何疾病都是通过最基本的症状来体现的。症状的组合,症状的有机联系,再经过医生临诊时周密的思考,才能把综合的症状根据其内部联系概括为某种证,然后才能确立治疗原则、处方和用药。如临床上根据胁痛、腹胀、纳呆、口苦、脉弦这些症状。就可以判断为肝气犯脾的证候。本课题就是通过方剂的主治症状来分析其主治证候,根据《中医证候规范》中证候判定至少需要一个或一个以上的主症加上若干次症才能判定,因此笔者提前设定主症权重为2、次症权重为1,当证候的权重在4以上才能进入下一级分析,不及者自动删除。

 该研究方法是首先选定被分析的方剂,在方剂症状表中提取其主治症状,每个主治症状在基本证候表中判定是何证的主症及何证的次症,统计各证的权重值及对应的主症个数和次症个数,权重在4以上者运用分式 进一步判定,计算分值最高者为判定结果。

4 实例说明

 以经典方剂桂枝汤为例,通过程序计算出其风寒表虚:a=3,b=2;风寒表实:a=2,b=2;太阳蓄水:a=2,b=2;太阳经气不舒:a=2,b=2;表寒里饮:a=2,b=1;风水相搏:a=1,b=2;风湿表证:a=1,b=2;风热犯肺:a=2,b=0;热结胃肠:a=1,b=2;表寒里热:a=2,b=0;少阴兼表:a=1,b=2;湿遏卫阳:a=2,b=0;风湿相搏:a=1,b=2;热伤气阴:a=2,b=0等等。将数据导入公式则得出:风寒表虚为11/7;表寒表实、太阳畜水、太阳经气不舒为4/3;表寒里饮为5/4;风水相搏、风湿表证、风热犯肺、热结胃肠、表寒里热、正阴兼表、湿遏卫阳、风湿相搏、热伤气阴为1 。因此我们可以判定桂枝汤主治证为风寒表虚证。再如麻黄汤,程序计算出其风寒表实:a=2,b=0;表寒里饮:a=2,b=0;太阳经气不舒:a=2,b=0;风湿表证:a=2,b=0;表寒里热:a=2,b=0;风寒表虚:a=2,b=0;风湿相搏:a=2,b=0;温邪侵袭肺卫:a=2,b=0;等等。同样将数据导入公式则得出:风寒表实2;表寒里饮:太阳经气不舒11/7;风湿表证、风寒表虚4/3;少阴兼表、温邪侵袭肺卫5/4;表寒里热、风湿相搏1。 因此笔者可以判定麻黄汤主治证为风寒表实证。

 本研究借助现代化的分析手段,成功的建立了方剂主治症状与证候之间的客观联系。 在422首样本方中,判定结果有62.5%令人满意。因此,笔者认为这种方法对于证的判定比较客观准确。但是同时也存在一些有待解决的问题。如:原方主治症状描述的完整性与准确性、主症次症规范化的客观性、主舌主脉与主症的地位是否等同等等。这些问题严重影响着判定结果的准确性,是进一步研究的重要内容,相信随着这些问题的解决,判定结果会更加令人满意。

参考文献&

[1] 刘晋平,黄宇虹,陆小左. 数据挖掘在中医脉诊中的应用[J]. 天津中医学院学报,2003,22(3):9

[2] 姚美村、袁月梅、艾路. 数据挖据及其在中医药现代研究中的应用[J]. 北京中医药大学学报,2002,25(5):20

[3] 许济群,方剂学[M]. 上海:上海科学技术出版社,1985.1

[4] 段苦寒. 中医类方辞典[M]. 天津:天津大学出版社,1995.1

[5] 姚乃礼. 中医症状鉴别诊断学[M]. 北京:人民卫生出版社,2000.1

[6] 邓铁涛. 中医证候规范[M]. 广东:广东科技出版社,1990.1

[7] 赵金铎. 中医证候鉴别诊断学[M]. 北京:人民卫生出版社,1987.1

  评论这张
 
阅读(234)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017