基于统计的网页质量评价技术研究与实现

被引量 : 0次 | 上传用户:xiao203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Intenlet/Interanet相关技术的发展,网上信息量迅速膨胀,但同时,网络信息的质量良莠不齐。为了更有效利用网络信息资源,如何对网络信息资源的质量进行评价越来越成为一个迫切的课题。目前,许多国内外学者,给出了网络信息资源评价对象、评价指标及评价方法等;同时,对网络资源的评价也取得一定的发展,其中基于链接关系的网页质量评价取得了显著的效果,并产生了经典的方法,如PageRank,HITs等。然而并没有针对论坛这种用户占主导性的网页的质量评价,本文提出了基于统计的网页质量评价,采用统计机器学习的方法实现对论坛网页的质量评价。本文采用机器学习的方法,针对特定领域的论坛,进行网页质量评价,主要从论坛网页的浏览数、回复数、正文长度、正文包含关键词的个数等方面来衡量一篇网页的质量。本文首先研究论坛网页的抓取功能,包括列表网页的识别和列表网页的内容抽取,列表网页的识别从网页结构和网页内容两方面着手,而对列表网页的内容抽取则采用基于相似度的方法;其次,采用基于统计的方法实现网页正文的抽取工作;再次,采用编码范围和n-gram语言模型相结合的方法实现对未指明编码方式的网页的编码识别;最后,利用最大熵模型,提取网页的内容特征,实现模型的训练和对网页质量的判断,在模型的训练过程中,主要解决了特征词的提取和非平衡数据集的训练两个问题,其中提出用投票法来实现特征词的提取,而采用经典的over-sampling方法解决非平衡数据集问题。本文的研究有利于实现论坛网页的信息过滤,使网民能够更有效地利用网络信息资源。当将其应用于特定产品时,能够只返回对产品质量反馈的帖子,使厂商能够有效,高效地了解用户反馈。
其他文献
在油田开发研究中,会遇到非牛顿流体渗流问题,其溶液通常表现为剪切稀释性质。虽然建立模型可以很好的描述非牛顿流体本液的宏观性质(主要是粘度-剪切率关系),但是由于多孔介
管道带压堵漏技术是在带压、带温或不停车的情况下,采用调整、堵塞或重建密封等方法,止住泄漏的过程,对管道系统的维护起着极大的作用。而在流体传输过程中,如何在带压状态下
我国行政立法受行政体制和立法体制的影响,一直以来均是出自部门之手,造成在行政执法过程中出现法规规章相互冲突,损害行政相对人利益的现象,极大地影响了我国依法行政的进程
目前国内外对路面预防性养护的概念争议比较大,导致预防性养护决策方法也各异,这样在效益、费用成本比较等方面无法做到等标准的量方面比较,不利于预防性养护决策管理。本论
随着现代生物医学工程的发展,许多细胞级的操作如细胞分离、捕获、切割及注射等均需通过显微操作装置完成。微操作台作为细胞微夹持器、微注射器及培养皿等微操作设备的承载
面对知识经济和全球一体化的挑战,发展高新技术产业、提升综合国力已成为当务之急。发达国家的实践证明,风险投资在支持创新活动的开展和高新技术产业化方面,有着独特的、不
手写数字识别是一个经典的模式识别问题,具有重大的理论研究价值和应用前景。目前研究人员对此做了大量的研究工作,提出了很多模式识别的算法,极大的提高了手写数字系统的识
药物开发过程中,90%遭淘汰的侯选药物中有50%是因为毒性原因而遭淘汰。为保障人类健康,企业或机构需要评估新化合物的毒性,这种安全性评价通常是基于动物毒理实验。以体外方
大量先进纤维增强树脂基复合材料结构在航空航天等领域的广泛应用对复合材料的性能特别是导电性能提出更高的要求。如何高效低成本地研制高性能的结构-导电复合材料,以及提升
大庆油田具有较长的开发历史,至目前多经历了多次加密与层系调整过程,部分区块实施了水驱、聚驱、化学驱等多元开发方式,目前大部分入高含水开发阶段,油藏内部剩余油分布高度