论文部分内容阅读
随着互联网技术的飞速发展,网络中的信息量呈爆炸式的增长。搜索引擎的出现解决了人们查找信息难的问题,但在面对某一专业领域的信息查询时,通用搜索引擎在追求更多的返回信息时,很难兼顾到搜索结果的准确度和相关性。于是主题(垂直)搜索引擎应运而生,它是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。作为医学行业来说,普通用户一方面希望能够从海量的医学信息中准确地找到想要的医学信息,另一方面也希望能够方便地查看到自己和家人的病历。于是,设计一个能够查询到整合个人看病历史和网络中海量医学信息的专业医学搜索引擎系统迫在眉睫。本文提出了医学搜索引擎的设想和设计,旨在开源搜索引擎Lucene思想的基础上设计并实现一个分布式垂直搜索引擎—医搜网,该搜索引擎支持大数据量索引和查询,并且解决了个人隐私和个性化推荐的问题。论文首先介绍了搜索引擎的发展历史及其关键技术;接着介绍了开源搜索引擎Lucene的框架、索引结构和查询过程以及网络编程中的一些基本知识;之后重点阐述了(1)医搜网的服务器架构及其实现细节;(2)医搜网的网页和个人看病历史的索引结构及其查询过程;(3)医搜网的网页查询、个人信息查询以及个性化推荐的运行效果;最后对本文所做的工作进行了总结,指出了课题需要改进的方向。本论文是在国家自然基金项目“泄漏电磁波认知及视频信息挖掘技术研究”资助下完成的,基金编号:61072136。