论文部分内容阅读
随着我国互联网技术在医疗行业的不断渗透,传统的医疗器械产品信息获取渠道逐渐转移到线上,越来越多的医疗器械产品信息被发布到网上,但海量的互联网数据和多而杂乱的干扰信息为医疗机构设备科、医疗器械从业人员及医疗器械消费群体获取医疗器械产品信息带来了诸多不便。而通用搜索引擎由于搜索信息量过大、存在商业广告排名等现象,也不利于医疗器械搜索用户便捷可靠的获取医疗器械产品信息。因此,本文通过研究垂直搜索引擎的工作原理和相关技术,结合医疗器械产品信息的特点和用户需求研究并实现了一个医疗器械垂直搜索引擎。本文主要研究了以下内容:(1)基于对全文检索框架和垂直搜索引擎相关技术的研究,以及对医疗器械信息检索存在的问题的分析,提出了本文需求与目标,设计了医疗器械垂直搜索引擎的整体架构和工作流程;(2)基于链接模板树规则定制了医疗器械主题爬虫的抓取策略,使用链接散列算法实现了主题爬虫的多线程抓取,消除了爬虫协议的限制,有效控制了医疗器械主题爬虫的抓取范围,提高了爬虫的抓取效率;(3)基于DOM树结构定制了医疗器械产品信息的抽取策略,对医疗器械产品信息相关的节点信息进行抽取和保存,实现了医疗器械产品信息网页的噪声过滤和文本结构化;(4)结合医疗器械产品信息的特点和用户的检索需求,在开源中文分词器mmseg4j的基础上定制了基于医疗器械专业词典的全切分算法和医疗器械产品型号切分算法,结合Lucene的分词机制形成了自定义医疗器械中文分词器,并基于医疗器械本体研究了医疗器械专业词库的构建方法,基本实现了对细粒度关键词检索和对产品型号检索的功能;(5)构建数据库-索引库双重存储结构,运用Lucene的索引技术在结构化存储信息的同时结合自定义的医疗器械产品信息分词器建立文本的倒排索引,进而运用Lucene的检索技术设置不同域的检索和排序,使用户在医疗器械搜索界面可以进行多域搜索和使用部分排序、筛选功能。经测试分析,本文的医疗器械垂直搜索引擎达到了搜索医疗器械产品信息的要求,可以在一定程度帮助医疗机构、医疗器械从业人员以及医疗器械消费群体获取医疗器械产品信息,具有一定的实际意义。