论文部分内容阅读
情报的收集、处理与研究工作关系到国家各方面的发展与进步。评定一个国家军队战斗力的强弱,除战略、战术、技术装备、武器装备、教育水平等因素之外,情报工作的收集能力之强弱,是评价标准的重要组成部份,尤其在高度信息化的“第三波战争”时代,情报工作的高科技化及杰出的收集能力,已成为国防现代化最主要的努力方向。随着世界各国在各个领域的竞争日趋激烈,情报收集、研究工作也受到各个国家越来越多的重视。情报搜集是情报研究工作的基础和前提,是情报分析的物质基础,对公开军事情报资料的搜集是军事情报搜集不可缺少的组成部分。随着计算机技术和网络技术的快速发展,从互联网上获取公开的情报信息成为情报收集的一个重要途径,受到各国情报部门的普遍重视。但由于互联网具有自由、异构的特点,使得人们直接在互联网上搜集有价值的情报资料时,面临着巨大的困难,必须求助于相应的工具软件。搜索引擎技术的出现使得这一困难在某种程度上得到了缓解,但同时搜索引擎又带来了许多新的问题,如“信息过载”、“相关度差”等。本课题将以网络标准搜索引擎为依托,采用元搜索、网页信息提取与噪声消除、中文分词与歧义剔除和向量空间模型(Vector Space Model, VSM)等技术,开发基于军事应用的智能化网络搜索工具。该工具以用户自定义关键词为基础,自动进行多引擎调度,搜集Internet上的公开情报资料,通过搜寻、分类、去重、排序等综合性自动处理、将具有高相关度的公开情报信息以链接的形式存入情报数据库并反馈给用户作为最新情报信息资料。本论文的主要工作如下:1搜索技术在分析搜索引擎结构框架的基础上,提出并开发基于元搜索引擎技术的网络情报搜集系统(NISF)。以不间断运行、定时搜索的方式,进行网络公开情报资料的收集。NISF元搜索系统包括用户接口、标准搜索引擎分配和调用机制以及搜索结果处理与返回三个主要方面。在用户接口设计上,构建情报用户需求模型,提出了基于关键词列表和用户反馈的情报用户模型,通过不断收集用户的反馈信息,调整关键词权重,使用户模型逐渐趋向于用户真实需求,提高情报信息搜索的准确性。在对标准搜索引擎分配调用机制上,提出了分配系数的概念和数学模型,针对用户搜索主题描述,利用分配系数评判标准搜索引擎在该类主题上的搜索性能,选择最优的标准搜索引擎完成搜索任务。在搜索结果处理与返回上,采用数据库技术剔除搜索结果中标题或URL相同的信息,使用VSM分析计算搜索结果与用户需求模型之间的相关度,在此基础上提出了一种改进的基于用户反馈的文本自适应过滤算法。在搜索信息提取上提出了基于HTML标记符号和关键词的主题链接、主题文本内容提取算法以及Web页面文本内容提取结果评价方法与数学模型。2情报处理技术本文对情报文档处理的主要任务是实现情报分档自动分类。由于目前计算机还不能完全理解自然语言,因此常用抽取文档高频词的方法描述文档。本文在抽取高频词上提出一种基于词典和词频的中文分词方法。在比较向量空间模型和集合运算模型的基础上,采用向量空间模型计算文档相似度;在描述文档距离上,比较了余弦公式与欧氏距离的性能,最终采用余弦公式计算文档间的距离。在分类算法上采用一种VSM、KNN和SVM相结合的文档分类算法。最后将分类结果存入数据库。3软件系统开发与实现基于以上技术,在Microsoft WindowsXP系统上,采用Borland Delphi7.0开发基于军事应用的网络情报搜集系统(Network Intelligence Search Finder,NISF)。结论:1基于关键词和用户反馈的用户需求模型可以量化用户需求,比较真实地反映用户的检索请求。2分配系数能够很好地评价标准搜索引擎在搜索某个关键词上的性能,为元搜索系统调用标准搜索引擎提供了依据。3改进的基于用户反馈的自适应文本过滤算法能够使用户得到相关度更高的情报信息。4 Web页面信息提取技术在Web页面链接和文本内容提取上有很好的表现,主题信息率的提出为评价Web页面信息提取算法的性能提供了依据。5基于词典和词频的中文分词方法在抽取文档高频词中表现出众。网络情报搜索器基于军事应用构建,具有鲜明的军事特色,响应了我军“建设信息化军队,打赢信息化战争”的号召。采用自动分类、信息过滤、信息提取、自动分词等数据挖掘技术,使得情报处理更具智能化。同时,该系统既能搜索军事情报信息,又可以搜集其它专业情报资料,因此具有广泛的应用价值以及重要的军事意义和现实意义。