【摘 要】
:
生物医学是21世纪的热门研究领域,近年来该学科文献增长速度惊人,但同时也导致了严重的信息过载现象:从大量的文献中找到自己感兴趣的论文,跟踪最新的进展,成为一个越来越困难
论文部分内容阅读
生物医学是21世纪的热门研究领域,近年来该学科文献增长速度惊人,但同时也导致了严重的信息过载现象:从大量的文献中找到自己感兴趣的论文,跟踪最新的进展,成为一个越来越困难的任务。生物医学文本聚类技术通过将相似的文档聚在一起,不相似的文档分开,能帮助用户(如生物学家)有效地组织、概括、导航和定位生物医学文献信息。因此,作为一种有效的生物医学文本挖掘工具,生物医学文本聚类具有重要的理论研究意义和广阔的应用前景。本文以生物医学文本为主要研究对象,提出了一种新的计算语义相似度的方法并且应用于生物医学本体——医学主题词表MeSH (Medical Subject Headings)。同时针对医学文本的特性,提出了基于主辅信息融合策略的半监督聚类算法SSNCut,并且应用于生物医学文本的聚类研究,实验表明该方法提高了生物医学文本聚类的精度。本文的具体内容包括:1)介绍了生物医学文本挖掘当前的研究进展,概述了文本聚类的模型表示、评估标准以及常用的聚类算法。此外,回顾了生物医学文本聚类的相关研究,指出了当前研究的不足。2)针对MEDLINE独有的MeSH本体,综述了基于本体的语义相似度度量方法,提出了一种更精确的语义相似度度量方法,并且提出了两种基于MeSH本体计算语义相似度的框架,实验验证了我们提出的相似度算法优于一般的语义相似度度量方法。3)针对MEDLINE文献包含的局部内容信息(bag of words)、MeSH语义信息和全局内容信息(相关文献列表),提出一种融合这三种信息的半监督聚类算法,实验验证了该算法可以有效利用这三种信息来提高生物医学文本聚类的精度。
其他文献
信息隐藏是信息安全研究的重要方面之一,而隐写术作为信息隐藏的一个主要分支,越来越受到国内外科研人员的关注。隐写术利用载体中的冗余信息嵌入秘密对象,以此实现秘密信息
随着社会信息化和数字化的发展,特别是数字家庭概念的发展,家庭中各种电器设备、多媒体设备网络化和信息化的加速发展,这些促使多种不同业务在家庭网络中同时呈现,而不同业务对带
基于达尔文进化论的进化算法在求解问题时,可将问题描述成自然界中种群的进化过程,遵循适者生存的机制,通过种群的不断进化,求得最优解或满意解。进化计算的研究较早,发展较
无线传感器网络(简称传感网)很多应用都依赖于节点的位置信息,所以节点定位技术是传感器网络领域中一种非常重要的基础技术。然而传感网一般部署在恶劣的环境中,节点易受到各
如今,数据采集和存储技术的发展使得许多数据库的数据量极其庞大,要从中分析有价值的信息、知识变得越来越困难,而这种分析需求却与同俱增。数据挖掘就是从海量数据中发现那些隐
云计算、大数据、数据中心等新型数据业务对网络服务提出了更多要求:低时延、更高的可用性与保证服务质量的端到端业务调度,其爆炸式增长趋势给光网络的智能化发展带来强大的
科技发展日新月异,越来越多的科学问题涉及到大量数据的处理,对这些数据的处理速度直接影响到科学问题的求解进程。甚至有些科学问题必须要有足够快的数据处理速度才能真实反映
贝叶斯网(BN)起源于人工智能领域的研究,是一种将概率统计运用于复杂领域进行不确定性推理和数据分析的工具。近年来,贝叶斯网络在很多领域得到广泛运用。在数据挖掘中,也获
搜索引擎已日渐成为人们获取信息的最主要方式之一。在用户提交的查询中,位置相关的查询占有相当的比重。而且,作为信息空间的一个重要维度,大部分网页包含有地理位置信息。但是
逆编译是编译的逆过程,作为软件逆向工程的重要组成部分,在代码分析、软件维护、软件安全验证等方面起了非常重要的作用。由于受到研究难度、合法性争论、开源代码等因素影响,针