论文部分内容阅读
在最近几年社会化应用和移动智能端快速普及的浪潮中,海量、实时的由亿万用户提供的社会化数据呈现出一种爆炸式的增长。数十亿用户依托各类新的社会化服务来实现网络交友、信息阅读、购物娱乐、社交沟通和生活记录等需求并生成了大量数据。这些数据也接入社会网络载体实现了大范围的迅速传播。本文关注社交数据上时序信息角度的抽取分析以及查询处理等问题。有效的时序信息管理不仅有助于对这类新的网上社会化数据的收集和处理,同时也是各类面向用户的数据服务应用的重要基础。 时序信息的处理是应对各种增量和更新场景的重要数据管理分支。相比以往的数据,社会化的时序信息的变化快速,包含更多的社会化特征以及具备丰富的用户交互等输入,都对数据的抽取和管理的传统视角带来诸多挑战。基于这些社会化数据的动态特征和用户行为,本文对时序信息开展了一系列从抽取、关联到查询理解等的研究工作,并开发和设计了一些模型算法。研究主要从三个方面顺次展开: 1.时序信息的抽取呈现:在设定的时序特征抽取任务中,本文提出一种基于多类社会化输入的抽取模型,通过新的指导学习架构来实现自动化的抽取。我们提出了一个整合的图上结构来表示抽取得到的相关时序信息。为实现这个综合语义关联和时序更新的抽取目标,我们通过综合一系列的图上关联度指标,并拓展了一个图上划分的方法,使得可以把抽取问题转换为图聚类的问题来进行处理。在真实数据集上的实验也表明了这个算法能够更好地构建时序特征,并有效呈现时序热点等信息。 2.时序信息的关联发现:在社交数据的时序变迁环节中,本文通过转发和评论等用户的信息分享和传播行为来识别话题演化变迁的关联信息。我们提出了一系列的内存摘要索引结构和优化维护策略等来支持社会化数据上短文本的近似匹配和关联结构发现等工作,同时利用一些拓展的快速匹配方法来加速处理过程。在几类数据上的实验也验证了这类抽取的有效性,以及对实时更新等新场景的支持。 3.时序信息的查询处理:社交数据来源于终端用户,也同时需要反馈给终端用户。这里针对时序数据普遍存在的关联性因素和时序更新等问题,通过构建一套离线的关联学习方法,建模了词汇主题的相似性和相关度抽取,一些扩展性的算法也支持了查询的在线改写和理解处理。实验证明这个方法可以有效地建立离线关联和在线查询理解,以及针对用户时序查询的关联和更新处理。 基于以上研究工作,本文继续讨论了如何搭建一个实际可适用的时序数据分析和处理原型系统,支持各类常见的社会化的处理和相应的研究探索等。验证了本文工作的有效性和适用性。