竞争对手网站商业情报挖掘

被引量 : 0次 | 上传用户:dashanLau
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个广泛流行的交流渠道,网络正越来越吸引更多的公司把他们的信息公布到互联网上。随着更多竞争对手的信息公开,对于一个公司而言,得到更多有关竞争对手的商业情报及其竞争优势的机会已然到来。然而,要从竞争对手的网站上找到有价值的信息并不是一件简单的事情,因为:第一网页数量如此众多以至于手工寻找这类信息根本不可行;第二如果没有汇总分析,实体间的模式和隐藏的关系是发现不了的。信息检索的应用软件,尤其是网络搜索引擎,能克服前面提到的第一个困难。但使用搜索引擎,需要用户给出其具体而详尽的需求。在寻找那些未知信息时,这种需求在结果没有呈现出来以前是模糊的。搜索引擎也缺乏对文档检索的分析,文档上的模式也不容易找到,所以目前的搜索工具对于获取商业情报的能力是有限的。为从竞争对手网站挖掘到那些用户无法描述清楚或根本不知道但对用户很有用的信息,即挖掘商业情报,我们使用了一些新的概念和方法,比如拿用户自身网站作为背景知识的来源,因为我们有足够的理由假定,相似的公司应该具有相似的基本信息,从事相同行业的人应该懂得这个行业的一些基本知识。然后我们将用户自身网站与竞争对手网站的内容进行对比挖掘,比较方法因具体的不同需求而不同,但核心都是挖掘关键词及其在文档中的出现频率,然后对它们进行分析比较以过滤那些无用的信息得到想要的结果。可是与西文网站相比,对中文网站的挖掘还有一个难处就是中文句子里的词与词之间没有显式分隔标记,要想挖掘到有用信息首先就要对文本进行中文分词。无词典分词是基于文档中词的统计信息来识别词的,它在未登录词(人名、地名、企业名等)以及领域内专业名词的识别上有很好的优势。本文研究了一种基于后缀数组的无词典分词方法,改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数,提高了其运算的速度。同时我们还介绍了三种典型的分词词典机制并设计了一个新的分词词典机制——双字哈希-词尾PATRICIA tree机制,该机制利用了已有线性词典机制随机访问快的优点同时又结合了PATRICIA tree查找速度快的优点,对于中文分词的速度有较大提高。
其他文献
目前,我国农村金融生态环境状况不佳,政府作为农村金融生态环境建设的主体,其行为对农村金融生态环境建设有着决定性的作用。本文在借鉴各学者对农村金融生态环境和政府行为
<正>举报线索是检察机关查办职务犯罪案件的源泉,是启动初、侦查程序的敲门砖。离开了举报,检察机关的职务犯罪侦查工作便会成为无源之水、无本之木,难以正常开展。当前,检察
法律方法论是人们认知法律之根本,同时也是法律人构建法治社会的基石。近年,随着哲学诠释学观念的影响,法律方法或法学方法的研究日渐兴隆,引起了法律界和法学界的关切与重视
<正>1945年,中国人民取得了抗日战争的伟大胜利。这是在怎样的客观条件下取得的呢?中国海上力量不如日本一艘舰艇一国的军事实力强弱,归根到底由综合国力,尤其是工业生产能力
新媒体技术作为现代教育技术的重要组成部分,在现代教育教学实践中被广泛地使用。它为学生们提供了多样化的学习形式、丰富多彩的学习内容,彻底打破了时空的限制,提供了全方
<正>刑事责任是指犯罪分子应当承担的国家(通过法院)依照刑事法律的规定,根据其符合法定犯罪构成的行为对其提出的相应的谴责、限制和剥夺等刑事法律后果的地位或状态。[1]未
<正>案名:许某丁、罗某坤滥用职权罪等案集刑法上的追诉时效是指一国刑法所规定的可以追究犯罪人刑事责任的最长期限。追诉时效制度为国家公权力设定了时间上的界限,为保护犯
1991年,上海市在借鉴新加坡中央公积金模式的基础上,在全国率先建立了住房公积金制度。经过二十年的发展,我国住房公积金制度取得了一定程度的发展,它在改革传统城镇住房体制
针对废水中难降解化学合成有机污染物的种类和数量不断增加,生物处理出水达标困难的现状,总结了国内外的经验和研究成果,对现有处理装置改造提出了若干建议,并介绍了几种国外废水
连云港花果山景区是江苏省唯一山海相依、集丰富的自然景观和人文景观为一体的、雅俗共赏的游览胜地。近年来花果山景区的发展势头良好,但仍存在许多问题,现据此提出几点建议