话题检测与跟踪算法的研究

来源 :北京交通大学 | 被引量 : 26次 | 上传用户:ssss456744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测与跟踪(Topic Detection and Tracking,TDT)是自然语言处理领域一个新的研究方向,它旨在帮助人们解决互联网上信息爆炸的问题,能够帮助人们对各种新闻报道信息流进行新话题的自动检测和己知话题的后续报道跟踪,并将其有组织的呈现在人们面前。话题检测、话题跟踪分别是TDT的两项子任务。   话题检测与跟踪系统主要模块有新闻报道的预处理、特征项提取、权重计算、构建话题向量模型和报道间的相似度计算。   传统的基于层次聚类算法的话题检测算法开销过大,因此在此算法的基础上,提出并实现了新的话题检测算法,该算法在层次聚类过程中动态更新话题空间向量的特征,并可设定聚类过程中的新闻报道合并规则。在TDT5语料库上的实验表明,该算法提高了话题检测的正确率,降低了新闻报道数据处理过程中的计算开销。   针对传统的话题跟踪算法(BasedTT)训练报道稀疏的问题,利用了自适应信息过滤的思想,实现了话题跟踪算法中话题向量的特征动态更新模块。根据新闻报道具有动态、随时间变化的特性,提出并实现了基于时间信息的动态阈值的自适应话题跟踪算法(ATT+Time)。实验分析表明,改进后的ATT+Time算法提高了话题跟踪系统的性能。
其他文献
水下无线传感器网络由部署在监测水域的低成本、自组织的智能传感器组成以去协同完成水域环境监测的任务,在环境监测、无人监控深海区域、自然灾难预防、军事预防等领域有着
随着网络技术的发展和计算机的普及,近些年来P2P技术得到了很快的发展。将具有动态性、开放性和匿名性等特性的P2P技术应用到电子商务上,使得电子商务交易更加灵活的同时,也
应用层组播技术是传统组播技术在应用层的拓展,以个人计算机等设备为传输和通信的终端,有效地隔离了IP组播在技术和安全层面带来的不足。但是以往的组播协议在用户自私性问题
人-机交互(HCI)是指人与计算机之间进行信息交换的过程。由于眼动信号具有可控性强、易于采集等优点,因此基于眼动的人-机交互系统(如:鼠标控制系统、轮椅控制系统、虚拟键盘系统等)的设计与开发已得到研究者越来越广泛的关注,并逐步走进了人们的生活。一般来说,按照功能的不同,眼动信号大致可分为扫视、注视、平滑追随和眨眼4类。其中,扫视信号作为发生频率最高的一种眼动行为,其扫视方向的多样性将有利于生成更多
学位
传感器节点的自定位技术作为无线传感器网络重要支撑技术之一具有重大的研究价值。在许多实际应用中感知数据只有结合位置信息才具有意义,而使用GPS收发器,成本和能耗较高不
相对于静态空间下的特征选择算法,有关动态特征空间下的特征选择研究并没有引起足够的关注。数据特征空间的动态性是指在算法开始前,问题的特征空间不是或不能提前获得,而是
规则化描述方法是针对离散事件动态系统提出的,它结合了人工智能中的形式化描述方法和基于规则的系统特征,为离散事件动态系统的分析和设计提供了一整套方案。但是工业控制系
随着计算机技术和数字图像技术的迅猛发展,三维重建技术已广泛应用于计算机图形学、医疗诊断、虚拟现实、摄影测量等领域中。摄像机标定是三维重建必不可少的一个步骤,标定的
图像的边缘包含了图像的位置、轮廓等重要信息,并且图像的边缘检测在边界检测、图像分割、模式识别、机器视觉等中具有很重要的作用。随着信息技术的发展,彩色图像的应用日益广
科学技术的发展,经济全球化的趋势,制造行业在迎来发展契机的同时,业内的竞争也愈发激烈。起重机械产品广泛应用于国民经济建设的诸多领域,优胜劣汰,能够在激烈的竞争中生存