论文部分内容阅读
随着网民和网页数量的急剧增加,互联网出现了“带宽瓶颈”和“信息垃圾”等问题。播存网络通过镜像并广播互联网上特定的主流资源或高热度信息资源,实现无冲突的信息共享。论文针对播存网络源端海量网页信息的组织开展了具体理论和实验研究。
论文首先分析了网页信息组织相关技术,主要研究了网页元数据规范、自动标引技术及文本分类技术。
其次,论文研究了基于朴素贝叶斯的文本分类算法,提出基于权重的贝叶斯算法,该算法采用权重计算特征词的先验概率。同时,提出基于贝叶斯的多分类器组合算法,该算法利用特征词构造多分类器组,降低特征词不独立给算法带来的影响。基于以上两种算法,设计和实现了中文文本分类系统,将该分类系统在搜狗及构建的新华网语料库上进行实验,实验结果表明两种改进算法都较好提升了分类的效果,为进一步信源组织系统的实现奠定了基础。
最后,论文根据播存网络源端的需要,基于改进的文本分类算法,设计并实现了播存网络信源组织原型系统。该系统基于RSS或用户访问日志获得网址;提取网页的元数据和正文,对网页正文进行文本分类和自动标引后,以RDF/XML文档作为信息组织的表现形式。该系统为信息过滤和主动信息服务提供了良好的信息源。