汉语大全>医学论文>基于潜在语义差异的医学网页聚类

基于潜在语义差异的医学网页聚类

详细内容

摘要:采用潜在语义索引的全局模型和局部模型表示医学网页时,模糊聚类结果的类间包含度很大。该文提出一种新的潜在语义差异模型,将医学网页中的文本抽取出来并分别采用全局模型、局部模型和差异模型进行表示,利用FCM算法进行聚类并计算类间包含度。实验发现,对给定的5类医学网页进行聚类时,采用差异模型时的类间包含度平均约为全局模型的85%、局部模型的80%。

关键词:潜在语义索引;差异模型;文本挖掘;FCM聚类;包含度

随着Inter的发展,互联网出现了海量的、异构的Web信息资源,其中,Web文本占了主导地位。如何从这些海量的Web文本信息中获得有价值的信息,成为信息处理领域的一个关键问题。人们将数据挖掘技术应用到Web的知识发现中,形成了Web挖掘技术。循证医学网页记录着丰富的循证医学实验信息,涉及疾病防治、保健、药物等各方面,典型的网上数据库有:Cochrane,Evidence-Based Medicine,Medline等,用户可以免费下载各种报告文章的摘要信息。

文献[1]以Medline中的摘要信息为研究对象,抽取出病人群体、对比治疗、疗效评价等信息。本文研究这些医学网页的聚类问题,主要考查样本网页聚类中涉及的文本表示与降维问题。潜在语义索引挖掘文本与特征之间潜在的高阶语义结构,将分解文本特征矩阵,实现特征空间的降维,文本和特征被转换到低阶语义空间上进行描述。目前主要的潜在语义模型有全局模型及其改进模型、局部模型及其改进模型[2]。本文在现有的全局模型和局部模型基础上提出一种潜在语义差异模型。通过对Medline数据库下载的医学网页数据进行实验,结果表明:利用该模型表示文本向量能有效地改进类间包含度。2潜在语义索引差异模型潜在语义索引(Latent Semantic Indexing,LSI)[3-4]的基本思想为:文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,可以采用统计的方法来寻找该语义结构,并且用语义结构来表示词和文本。

这样可以消除词之间的相关性,化简文本向量。潜在语义分析是基于矩阵的奇异值分解(Single ValueDeposition,SVD)技术的。给定一组文档,假定包含n篇文档,其中有m个不同的词项,采用词项作为特征。该文档集可以表示为词项×文档矩阵:[]m nij m nx R××X=∈。其中,矩阵元素xij表示词项ti在文档dj中的权值。矩阵X的奇异值分解可以表示为X=UDVT(1)其中,U和V分别为左奇异矩阵和右奇异矩阵;U是一个m×m的列标准化正交矩阵;D是一个m×n的对角矩阵,其对角线上的元素是按降序排列的非负奇异值;V是一个n×n的正交矩阵。选择适当k值,将D中删除相应的行和列得到Dk,删除U,V相应的行和列分别得到Uk,Vk,得到新的矩阵Xk=UkDkVkT。这个新矩阵是对原矩阵的逼近,可以用它去近似原始矩阵。LSI空间是由Uk的前k维列向量张成的空间,因此,矩阵X中的文档可以投影到k维LSI空间,得到低维表示。LSI不但可以对文本表示进行有效的降维,还可以捕捉到文本的潜在语义信息[2]。目前主要的潜在语义模型有全局模型、局部模型两种[2]。