基于Web的企业信息获取技术的研究与应用

被引量 : 1次 | 上传用户:zzyu888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网包含了丰富的信息资源,成为了企业获取信息的主要途径。然而由于互联网上的海量信息,如何从海量信息中找到企业所需要的信息仍为一个难题。因此,基于Web的企业信息获取技术成为目前研究的热点。本文从企业的产品出发,基于Web发现产品的生产企业,找到企业的首页。企业首页上含有大量的有关企业的产品介绍、企业荣誉、发展目标等信息,获得了企业首页就可以全面地、及时地获取企业信息。本文主要工作如下:首先,针对企业名称的命名特点,本文提出了基于LCS的企业名模式抽取算法。本文首先根据已知的企业信息建立索引,实现给定产品名检索出相应的生产企业,然后基于LCS算法提取企业名称的最长公共子序列,最后根据最长公共子序列和企业名称相匹配的方法抽取出企业名模式。实验结果表明,该方法可以有效的抽取出企业名模式作为查询扩展的扩展词集。其次,本文采用了基于贝叶斯的信息过滤方法。该方法将基于搜索引擎搜索到的网页利用贝叶斯分类器过滤后,获取企业的首页,将非企业首页过滤掉。在分类器选择特征时,本文提出了基于网页链接块的导航条锚文本抽取方法,根据网页链接间字符的间距来识别网页块,抽取平均长度为3-5个字且数量在两个以上的锚文本,将这些锚文本作为特征词。本文选取了机械类、电力电气类、建筑建材类、材料类等产品做实验,实验结果表明,该方法取得了较好的效果。
其他文献
<正>前言与其他农业起源地一样,华北地区的居民在进入全新世大暖期后,开始尝试驯化动物[1]。动物资源的获取策略由依赖型转向开发型,家畜饲养逐渐成为先民肉食的主要来源[2],
从法律、道德与经济方面来看,研究生的学术剽窃都需要认真对待,彻底遏制。研究生剽窃的规模、特点与程度在不同专业、不同国家之间虽有所不同,但其原因一般是出于学术训练不
<正> 阿司匹林(Aspirin,学名:乙酰水杨酸、下称ASA)是一个古老的解热镇痛药,临床应用已有80余年历史,至今仍属较有效的抗风湿药物。但随着较大剂量和长疗程的使用,发现其副作
为使下肢骨折在骨痂形成期后 ,离床步行锻炼时正确使用拐杖 ,减少并发症 ,促进患者顺利康复 ,通过临床宣教 ,使病人掌握拐杖的选择、扶拐行走的原则与时机、正确扶拐方法、扶
称重传感器存在因环境温度不同导致的非线性误差,需要进行补偿。阐述了称重传感器的温度误差机理,提出了一种基于径向基函数神经网络(RBFNN)的称重传感器温度误差补偿方法,并
工程建筑材料质量直接决定建筑工程质量的等级,因此建筑材料监测是很重要的一个步骤。直至今日,建筑材料质量监测行业也没有完全实现监测、存储和查询自动化。随着信息和自动化
<正>直岗拉卡水电站工程位于黄河干流上游的青海省尖扎县与化隆县交界处,距上游李家峡水电站坝址7.5km,距青海省西宁市公路里程109km。该电站工程是黄河上游龙洋峡一刘家峡河
<正> 快节奏、高效率是秘书工作的一个基本原则。新时期办公室面临的问题复杂而又随机,秘书人员常感到整天忙忙碌碌而事情仍做不完,时间不够用。如何在有限的时间内处理好大