论文部分内容阅读
随着社会现代化信息技术的快速发展,网络信息资源飞速增加,大量的信息资源蕴含着丰富的状态信息,预示着社会、事件及环境可能的状态变化,通过明确的指向性和目的性牵引着社会的改变,为人们的生活和工作带来巨大的便利。但信息资源的增长也导致虚假信息的快速膨胀和人们获取正确可靠的信息能力之间的矛盾日益突出。因而,如何有效地对复杂多变的状态信息进行可靠性预测,已经逐渐成为人们关注的重点。首先,由于状态信息大多以网络文档的形式呈现,无法直接使用计算机进行处理,因而将网络文档转化成计算机能够处理的结构是状态信息可靠性预测的重要基础与前提。针对网络文档结构化问题,即文档表示问题,先对文档分类技术中向量空间模型的TF-IDF权重进行研究。再针对TF-IDF权重中的特征项在类间分布以及关于文档主旨的信息缺失,分别引入信息增益和文档的全局权重进行补充,完善和实现有效的文档表示。在此基础上,基于改进的TF-IDF权重算法,建立一个网络文档表示系统,实现快速高效的大规模文档表示。其次,贝叶斯网络是一个数据挖掘和不确定知识表示的理想模型,在目标识别、不确定知识推理和预测等多方面产生了成功的应用。同时,有别于处理向量化的物理数据的硬传感器,针对由一维线性字符组成的网络文档,在对其结构化的基础上,建立基于贝叶斯网络的状态信息可靠性预测模型,即基于贝叶斯网络的软传感器模型,帮助人们准确地定位各种状态信息的文档集,并利用软传感器模型对网络文档描述的状态信息的可靠性进行有效的预测,为人们提供可靠的状态信息、支持。最后,本文使用开源文档集对改进的TF-IDF特征项权重算法进行测试,分析比较改进算法的效果。另外,针对开源文档集,构建基于贝叶斯网络的软传感器模型,分析比较由软传感器模型建立的文档数据分布与文档数据的真实分布,验证软传感器模型对于文档数据分布的建模效果;同时对基于贝叶斯网络的软传感器模型方法与统计分析方法的状态信息可靠性预测进行比较,证明软传感器模型在状态信息可靠性预测方面的有效性。在此基础上,使用对门户网站自行采集的网络文档集,基于贝叶斯网络的软传感器模型,进行状态信息可靠性预测的实际应用。