论文部分内容阅读
作为一个广泛流行的交流渠道,网络正越来越吸引更多的公司把他们的信息公布到互联网上。随着更多竞争对手的信息公开,对于一个公司而言,得到更多有关竞争对手的商业情报及其竞争优势的机会已然到来。然而,要从竞争对手的网站上找到有价值的信息并不是一件简单的事情,因为:第一网页数量如此众多以至于手工寻找这类信息根本不可行;第二如果没有汇总分析,实体间的模式和隐藏的关系是发现不了的。信息检索的应用软件,尤其是网络搜索引擎,能克服前面提到的第一个困难。但使用搜索引擎,需要用户给出其具体而详尽的需求。在寻找那些未知信息时,这种需求在结果没有呈现出来以前是模糊的。搜索引擎也缺乏对文档检索的分析,文档上的模式也不容易找到,所以目前的搜索工具对于获取商业情报的能力是有限的。为从竞争对手网站挖掘到那些用户无法描述清楚或根本不知道但对用户很有用的信息,即挖掘商业情报,我们使用了一些新的概念和方法,比如拿用户自身网站作为背景知识的来源,因为我们有足够的理由假定,相似的公司应该具有相似的基本信息,从事相同行业的人应该懂得这个行业的一些基本知识。然后我们将用户自身网站与竞争对手网站的内容进行对比挖掘,比较方法因具体的不同需求而不同,但核心都是挖掘关键词及其在文档中的出现频率,然后对它们进行分析比较以过滤那些无用的信息得到想要的结果。可是与西文网站相比,对中文网站的挖掘还有一个难处就是中文句子里的词与词之间没有显式分隔标记,要想挖掘到有用信息首先就要对文本进行中文分词。无词典分词是基于文档中词的统计信息来识别词的,它在未登录词(人名、地名、企业名等)以及领域内专业名词的识别上有很好的优势。本文研究了一种基于后缀数组的无词典分词方法,改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数,提高了其运算的速度。同时我们还介绍了三种典型的分词词典机制并设计了一个新的分词词典机制——双字哈希-词尾PATRICIA tree机制,该机制利用了已有线性词典机制随机访问快的优点同时又结合了PATRICIA tree查找速度快的优点,对于中文分词的速度有较大提高。