基于论坛的话题发现与跟踪算法研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:byekao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网以其信息资源丰富、时效性强、覆盖面广的特点成为人们获取信息资源的主要方式。通过对话题发现与跟踪相关理论的研究,建立以话题为索引对信息进行梳理的方式,可以帮助普通用户获取感兴趣的信息,同时可以帮助政府、高校及相关事业单位及时获取网络上的舆情信息,便于维持网络安全,维护社会安定。针对论坛信息完善、用户参与度和活跃度高、覆盖范围广的特点,本文建立基于论坛的话题发现与跟踪模型。主要工作和创新点如下:首先,设计并实现了基于层级聚类算法的话题发现与跟踪模型,并将其成功应用到实际的舆情项目中。针对热点话题的发现,引入话题热度计算公式作为测度标准。其次,提出并实现基于可信关联规则的话题发现算法。针对传统层级聚类算法中存在的缺陷,提出基于可信关联规则的话题发现算法,并基于这种算法,发表EI会议论文《A practical approach to topic detection based on credible association rule mining》。改变传统话题发现方法中基于文档进行文本聚类的思路,通过直接对文档中的词项进行聚类,进行文本聚类。使用这种策略进行在线话题检测时,复杂度较低,且具有很好的聚类效果。通过实验发现,使用这种聚类策略,尤其在针对短文本聚类(如微博信息、论坛信息等)时,性能优于传统的基于文档进行聚类的方法。最后,设计校园舆情项目中的话题发现与跟踪算法模块,并使用基于可信关联规则的话题发现算法作为其核心算法。在实际运行过程.中,通过监测话题发现的性能,发现结果会产生一些垃圾话题信息,在原有对文档特征词进行极大团挖掘的基础上,提出基于极大准团的特征词挖掘算法。在实际应用中发现,使用该算法进行文本聚类和话题发现的效果在性能方面具有明显的提升。
其他文献
在当今的社会,员工满意度调查已经成为企业了解员工需求、企业内部改善以及树立企业形象的一个重要工具。但在以往的满意度调查项目中,也存在非常多的不足之处,如调查方法单一,调
2017年,国办发布的《关于金融支持制造强国建设的指导意见》中提出,积极鼓励机构依托先进制造业产业链中的核心企业,积极开展应收账款保理、质押融资等各种形式的供应链金融
历史上的许多城市或人工建造,由于战争、气候变化及自然灾害等原因被毁或遭到废弃,从而失去了生命,随后逐渐荒芜,最终消失得无踪无迹,就如同巴比伦空中花园。其中有些已湮没
园林作为一种文化载体,其美学思想的演变过程既是社会形态演变的外化,也是历史阶段人与自然关系的折射。从风景园林史学与美学的双重视角,解读桂林山水园林的审美历程。研究
对北京首钢群明湖公园展开设计研究。群明湖景观在近百年的历史中几经变迁,充满异质性的信息以共时的方式拼贴于项目场地上,呈现出当代特有的后工业图景。在辨析并适度借鉴后
历史制度主义是新制度主义中的重要分支,强调政策是随着时间的推移而被制度塑造的,存在着"路径依赖"现象,这意味着在过去制度环境中做出的政策选择影响现在的政策结果。中国
由于"营改增"是我国税收体制和营商环境不断优化的重要体现,各行各业的公司企业都对其产生的实际影响十分重视,特别是物业管理公司纷纷开始探讨"营改增"对公司经营方方面面的
高桐轩是晚清杨柳青著名的民间年画画师。通过分析学术界已经确立为其本人所做的22幅年画作品中的风景园林要素,研究人物活动及文化内涵,结合《墨余琐录》原文探析高桐轩的风
马铃薯是华南地区的特色冬种农作物,其地块的"早稻―晚稻―冬种马铃薯"三季种植模式具有特有的植被指数时间序列曲线特征。利用这一特征,提出一种基于NDVI时间序列数据和SAM
随着互联网平台经济的快速发展,大量传统行业进入网络化、共享化、智能化发展阶段,传统行业与互联网行业合作创新多样化服务的新兴行业崛起。通过互联网平台,将社会闲置资源