基于多标记学习的用户属性流式预测模型研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:octaaug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网正在从“用户以获取信息为主”的Web1.0时代过渡到“用户既是网络信息获取者又是网络信息制造者”的Web2.0时代。为了能够在海量数据中发掘信息或者服务,用户画像具有巨大的作用和价值,能够为个性化搜索、个性化推荐、广告营销、产品策略以及运营方向提供基础性支持,指引方向。用户属性预测是用户画像研究的核心工作,如今用户属性预测的研究主要着重于单个属性的预测模型构建,缺乏较为完善的、全面的多个属性同时预测的模型方法;此外,更是缺乏相应领域的数据流挖掘以及概念漂移处理机制,无法实现用户属性动态预测,并且现有的概念漂移研究具有局限性,需要进行相应地改进与加强。本文从以上问题入手,旨在构建体系完备、效率与性能优越的用户属性流式预测模型。在属性预测方面,本文侧重同时预测多个属性的理念,基于多标记学习技术,采用多示例多标记框架(MIML)将属性预测作为一个广义的多标记分类研究,并且创新性构建组成用户对象的示例概念,采用聚类方法构建示例,实现了能够快速、准确、同时预测多个属性的模型构建。不同于离线预测模型,本文创新性加入基于数据流挖掘技术的在线流式框架,处理用户产生的在线行为与动态,侧重处理数据流的各类概念漂移问题,提出了一种基于原型(Prototype-based)学习的自适应概念漂移分类算法SyncPrototype,相较于现有算法,SyncPrototype在分类性能、概念漂移的响应速度以及时间性能等方面都有明显提高,能够更加有效处理并适应数据流概念漂移问题。为用户属性流式增量迭代方面提供了有力支持,从而实现用户属性动态预测以及流式迭代。本文运用基于多标记学习的用户属性流式预测模型设计开发了用户属性认证系统的数据挖掘验证模块,能够有效验证微博用户所填个人信息真实性,衡量属性可信度。
其他文献
目前我国大型电力集团和供电公司都实现了信息化管理,但是现有系统主要是关于电力生产控制与监控方面,使用场景局限于有专用网络和电脑的固定工作场所,对于需要外出作业的负
非均质性和各向异性在描述储层特性方面具有重要的作用。数字岩心作为一种新的油田技术,在模拟研究储层的特性方面具有很大的应用前景。然而在目前,大多数基于数字岩心的模拟
太赫兹(THz)波是指频率从0.1THz到10THz,介于毫米波与红外光之间的电磁波,涵盖了亚毫米波及远红外光区域,兼有微波毫米波与红外可见光两个区域的特性,同时又与其他波段的电磁
随着计算机科学和移动通信的发展,互联网已经成为人们不可或缺的工具。每一次计算机和互联网的革命都会大大提升人们产生数据的能力,而每一次革命都会对数据的收集、存储和应
光通信网络作为未来通信的发展趋势,正得到与日俱增的关注。其中,早前广泛使用的“光-电-光”模式因电信息处理在效率与功耗等方面的瓶颈,正向逐步全光网络过渡。半导体激光
油膜轴承由于其摩擦系数小、损耗低、刚性高等优点,被广泛应用于钢铁、矿山、冶金、电力等系统的高、精、尖关键设备上。衬套作为油膜轴承的核心部件,其结构和运行过程中的受
pH中和过程广泛存在于化工、发电、污水处理等重要领域中,因为其具有强非线性、时变性、大时滞等复杂过程的典型特点,在控制界和工程界都一直被认为是最具挑战的难题之一。早
氮氧化物是造成诸如光化学烟雾、酸雨及雾霾等污染事件的重要污染物之一,严重影响了我国的生态环境及经济的可持续发展。选择性催化还原(SCR)技术是当前脱除NOx最为有效的技术
目的:促进创伤性脑损伤(traumatic brain injury,TBI)后轴突的再生和正确致靶是神经外科研究领域的热点和难点。本课题以小鼠TBI模型为研究对象,分析TBI后创伤区微小核糖核酸
实验室前期研究中,利用大豆慢生型根瘤菌Brdyrhizobium japonicum USDA110基因芯片技术,大豆异黄酮genistein作为刺激元,获得了全基因组表达谱,首次发现了一处染色体位点的表