基于知识分词算法的病案全文检索系统

被引量 : 7次 | 上传用户:ajdujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展和经济的腾飞,图书馆、新闻出版、企业等单位电子数据激增,可供人们选择的信息迅速膨胀。这些文档常常并非存在于结构化的数据库中,以TXT, DOC, HTML,XML, XLS, PPT, PDF等多种文档格式存储。当人们需要某方面信息的时候,就要从这大量的文档中提取有用的信息。然而目前的全文检索系统或因特网搜索对中文信息在查全率和查准率很难让用户满意,这很大程度上与中文的语言特性相关。本课题的研究重点是中文分词。汉语自动分词是中文信息处理技术的“瓶颈”问题。各类分词算法不下几十种。围绕提高分词效率和精度,减少歧义,本文提出了知识分词的思路,以各类知识体系为基础建立分词系统。数据库全文检索技术也获得了蓬勃的发展。各大数据库厂商大都为自己的数据库配置了全文检索引擎。由于这种引擎是完全集成在数据库中的,因此具有很高的效率,并且管理方便,易于使用,容易与数据库应用系统相关联。本课题利用ORACLE大型数据库提供的全文检索引擎Oracle Text 建立一个病案全文检索系统,并将分词系统与Oracle Text建立关联,提高全文检索的查全率与查准率。论文第一章概述了信息检索目前的应用现状和现实需求,阐述了本课题研究依赖的理论知识,阐明了课题的性质、课题的研究重点。第二章介绍全文检索技术的原理和发展趋势。第三章介绍各类汉语分词算法。第四章对知识分词系统进行了研究和实践。第五章对病案全文检索系统在ORACLE数据库中的实现进行了介绍。
其他文献
近年来,农村资金互助社充分利用自身"小、快、灵"的优势,在支持"三农"发展中发挥了积极的作用。但在成长过程中面临的问题和困难也日益凸显。本文在调查研究基础上,针对发展
目的探讨使用吉姆萨(Giemsa)染色法对伯氏疟原虫(Plasmodium berghei,P.b.)ANKA株感染小鼠肝、脾组织标本进行染色的可行性及效果。方法小鼠肝、脾组织用10%福尔马林固定后石
<正>汉堡留给人们的第一印象就是它那不可思议的自信。自二战以来,民族主义在德国臭名远扬。和其它欧洲国家如法国,英国等相比,德国人在表达自己的民族自豪感方面不得不小心
期刊
<正>国务院于近日公布了第三批国家级非物质文化遗产保护名录(共计191项)和第二批国家级非物质文化遗产名录扩展项目名录(共计164项)。宁化石壁客家祭祖习俗人选国家级非物质
利用广州新一代天气雷达资料,将多普勒速度和反射率因子及其导出产品特征进行分型,详细描述了各种类型多普勒速度特征的特点和分类方法。按不同类型中小尺度天气系统,对多普
铁东选煤厂浮选车间和压滤车间系统改造以前是同一个车间,为了满足生产的需要,提高生产效率,减轻工人的劳动强度,把压滤车间和浮选车间进行了分开,各成立了独立车间,这样做的
轨道交通作为城市的标志性建筑和重要交通枢纽,面临着突发公共案(事)件所带来的严峻考验。公安机关要在党委政府的统一领导下,与相关职能部门相协调,构建高效运作的城市轨道
随着无线通信技术的发展,各种无线接入技术应运而生,为电信运营商提供了宽广的选择空间。作为有线技术的有力竞争者,采用无线技术的窄带、宽带、语音、数据和图象等产品在覆盖能
在系统阐述了航空电子综合技术及系统结构发展的基础上,全面论述了综合化及模块化的含义,指出了综合化系统及模块化在大系统结构中的层次关系。最后,提出了我国发展综合化系
介绍了目前我国公共场所火灾的现状及火灾公众责任险强制性实施的必要性。通过建立公众场所火灾风险评价指标体系,运用多层次模糊综合评价理论对公众场所火灾危险性进行综合