社会化数据的时序分析与处理研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:paulhujq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在最近几年社会化应用和移动智能端快速普及的浪潮中,海量、实时的由亿万用户提供的社会化数据呈现出一种爆炸式的增长。数十亿用户依托各类新的社会化服务来实现网络交友、信息阅读、购物娱乐、社交沟通和生活记录等需求并生成了大量数据。这些数据也接入社会网络载体实现了大范围的迅速传播。本文关注社交数据上时序信息角度的抽取分析以及查询处理等问题。有效的时序信息管理不仅有助于对这类新的网上社会化数据的收集和处理,同时也是各类面向用户的数据服务应用的重要基础。  时序信息的处理是应对各种增量和更新场景的重要数据管理分支。相比以往的数据,社会化的时序信息的变化快速,包含更多的社会化特征以及具备丰富的用户交互等输入,都对数据的抽取和管理的传统视角带来诸多挑战。基于这些社会化数据的动态特征和用户行为,本文对时序信息开展了一系列从抽取、关联到查询理解等的研究工作,并开发和设计了一些模型算法。研究主要从三个方面顺次展开:  1.时序信息的抽取呈现:在设定的时序特征抽取任务中,本文提出一种基于多类社会化输入的抽取模型,通过新的指导学习架构来实现自动化的抽取。我们提出了一个整合的图上结构来表示抽取得到的相关时序信息。为实现这个综合语义关联和时序更新的抽取目标,我们通过综合一系列的图上关联度指标,并拓展了一个图上划分的方法,使得可以把抽取问题转换为图聚类的问题来进行处理。在真实数据集上的实验也表明了这个算法能够更好地构建时序特征,并有效呈现时序热点等信息。  2.时序信息的关联发现:在社交数据的时序变迁环节中,本文通过转发和评论等用户的信息分享和传播行为来识别话题演化变迁的关联信息。我们提出了一系列的内存摘要索引结构和优化维护策略等来支持社会化数据上短文本的近似匹配和关联结构发现等工作,同时利用一些拓展的快速匹配方法来加速处理过程。在几类数据上的实验也验证了这类抽取的有效性,以及对实时更新等新场景的支持。  3.时序信息的查询处理:社交数据来源于终端用户,也同时需要反馈给终端用户。这里针对时序数据普遍存在的关联性因素和时序更新等问题,通过构建一套离线的关联学习方法,建模了词汇主题的相似性和相关度抽取,一些扩展性的算法也支持了查询的在线改写和理解处理。实验证明这个方法可以有效地建立离线关联和在线查询理解,以及针对用户时序查询的关联和更新处理。  基于以上研究工作,本文继续讨论了如何搭建一个实际可适用的时序数据分析和处理原型系统,支持各类常见的社会化的处理和相应的研究探索等。验证了本文工作的有效性和适用性。
其他文献
无线传感器网络(Wireless Sensor Networks,简称WSNs)是一种由大量廉价的微型传感器节点通过自组织形式组成的智能网络系统,在军事和民用等领域有着十分广阔的应用前景。目标
在科技飞速发展的现代社会,服务器系统的安装数量呈直线上升趋势,服务器管理员的工作也日趋繁重,为了减轻管理员的工作负担并且丛整体提高服务器的了用性、可靠性方面来考虑,
高等职业教育作为高等教育的一个重要组成部分,其主要目的是培养技能型人才,提高学生实际工作能力。为了更好地科学有效地评价高职院校的教学质量,教师要注重对学生实践能力的培
随着RFID、无线网络等物联网技术的快速发展,产生了大量的移动对象数据。移动对象一般都具有多维属性和时空特征,移动对象之间进行通信形成了移动对象网络。如何处理和有效利
可比较语料库是自然语言处理领域中非常有价值的资源,但是,目前并没有足够规模的可利用的公共可比较语料库,构建大规模中英文可比较语料库有理论价值和应用价值。本文提出了
随着语义Web的迅速发展,本体的数量也不断增加。本体异构是阻碍本体重用和共享的障碍,而解决本体异构最有效的方法是本体映射技术。因此,本文将着重对此进行研究。首先,论文
数据降维是模式识别领域中一个重要环节,其基本任务是从高维数据中提取稳定有效的特征以满足后续学习任务。典型相关分析作为一种经典的多视图数据降维方法,其目的是研究同一对
基于多图谱的标签融合技术作为一项新兴的研究方法,在模式识别和医学图像分割领域受到越来越多的关注,它利用了更多的已有专家先验知识,通过图谱图像的指导将图谱标签传播到待分
云计算是信息技术(IT)行业的一个新兴领域,由于它具有高性能、高可用性、低成本等特点。信息泄露、缺乏适当的安全控制策略和信息哨兵的弱点是这些云计算公司的主要的缺点。因此
在计算机信息通信行业迅猛发展的今天,网上信息量以带宽的指数级增长,因此网络带宽和数据通信之间的矛盾将在未来很长一段时期内作为社会发展的主要矛盾之一。同时,在其他一些特