论文部分内容阅读
目前,互联网上的信息迅速增长,舆情分析研判已成为人们获取信息最经济快捷的方式之一。但传统舆情分析研判存在返回结果量大、准确度不太高的缺陷,耗费了用户的时间和精力。舆情分析研判的质量受很多因素影响,从数据源的角度看,网页舆情分析研判的突发群体性事件预警噪声会影响对网页舆情分析研判的突发群体性事件预警主题的索引,降低搜索准确性;从搜索返回结果看,链接注释对用户选择点击链接起关键提示作用,低质量的注释很可能会误导用户。本文从Web页面解析去噪和网页舆情分析研判的突发群体性事件预警自动文摘技术两方面来探索提高舆情分析研判质量的途径。本文设计并实现了一种改进型的网页舆情分析研判的突发群体性事件预警DOM树剪裁去噪方法。该算法通过对互联网主流新闻网站的网页舆情分析研判的突发群体性事件预警源信息流进行统计、分析,将半结构化的HTML源代码解析成一棵精简的DOM树。然后依据噪声与有用信息的差异性构建出DOM树的剪裁去噪策略。该策略在对后续数百万网页舆情分析研判的突发群体性事件预警的实时处理中不断修正,完善,并逐渐将网页舆情分析研判的突发群体性事件预警去噪范围扩展到整个互联网。该去噪方式,不受网页舆情分析研判的突发群体性事件预警风格的限制,具有比较高的质量和效率。上述去噪技术有三个特点:①双重网页舆情分析研判的突发群体性事件预警类型判断策略,其判断正确率为95.20%。②双重网页舆情分析研判的突发群体性事件预警正文定位机制,其正文准确召回率为95.048%。③提出了八项网页舆情分析研判的突发群体性事件预警去噪质量评估指标,使得质量评估更准确、全面。在网页舆情分析研判的突发群体性事件预警去噪的基础上,本文设计并实现了一种基于自动摘录和篇章结构相结合的网页舆情分析研判的突发群体性事件预警自动文摘技术。该技术具有领域不受限和高效的优点。用类似于提取网页舆情分析研判的突发群体性事件预警全文摘要的方式,本文提取了网页舆情分析研判的突发群体性事件预警多主题摘要,并提出将其作为舆情分析研判返回结果链接注释的特色应用。该注释方式与传统的链接注释相比能更好的吻合用户的搜索意念。