基于短文本挖掘的个性化信息推荐算法

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:gloria_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联技术的发展,微博、微信等社交平台逐渐被人们所接受并广泛使用,其产生的短文本数据量每天以BT级递增。其不同于数据挖掘中以结构化的形式存储的数据,它具有字数少、长度短、信息含量少、特征稀疏等特点,且以非结构化或者结构化的形式存储。因此如何从短文本数据中提取有价值的信息或知识,并将其根据用户自身的需求进行个性化推送,以节省用户在海量数据中寻找的时间,提高搜索信息的效率和准确率,成为更多学者研究的领域。本文在对现有文献的研究的基础上,(1)对文本挖掘技术和短文本挖掘技术的概念和流程进行了归纳,概括了短文本数据的特征,并在此基础上提出了将用户评论与信息本身相整合的特征拓展方法,在一定程度上解决了短文本特征稀疏的问题;(2)对主题挖掘中的主题模型进行了研究和分析,提出了不借助于外部语料且从用户的角度进行分析的用户评论词对主题模型UCBTM:首先将用户的短文本信息与其对应的用户评论整合成“初步长文本”,得到“初步长文本”文档集合,对于其特征稀疏的问题得到一定的缓解;其次,利用K-means聚类算法将“初步长文本”文档集中主题接近的“初步长文本”聚类到一个簇中;然后,将每个聚簇中的所有“初步长文本”信息整合在一个长文档中,以到达进一步解决特征稀疏的问题;最后,根据文档集中的用户主题对每一个长文档中词对的共生模式进行建模得到整个文档集合中主题-词分布及每个用户的主题分布[1]。(3)研究PageRank算法和用户影响力算法,结合新浪微博数据特征,分析用户影响力的影响因素,并运用模糊评价法评估其权重,完成微博用户影响力模型的构建,并在上述研究基础上提出了适用于社交平台的用户影响力算法UserRank; (4)最后提出了基于主题挖掘和用户影响力算法UserRank的用户个性化推荐算法:首先,根据UCBTM模型挖掘的结果计算用户间主题相似度,然后UserRank计算用户影响力度,最后计算两者的期望得到一个用户对于另一个用户的推荐程度值,并根据推荐程度值大小,得到用户的用户推荐列表。从而实现用户的个性化推荐。(5)以新浪微博数据为处理对象,对UCBTM主题模型和个性化推荐算法进行论证,并与其它算法和模型实验结果对比分析,表明了 UCBTM模型提高了主题挖掘的质量和效率,以及个性化信息推荐算法的有效性。
其他文献
本文在省际面板数据基础上运用DEA分析中的Malmquist指数方法测算并分解了我国改革开放以来的TFP变动。结果发现:就TFP变动模式而言,1978~2006年间TFP每年以接近3%的速度增长,
目的探讨过敏性鼻炎评分量表(Score For Allergic Rhinitis,SFAR)与过敏性鼻炎临床病程的相关性。方法采取横断式问卷调查法,选取我市某小区常住人口830例进行SFAR问卷调查,
目的:了解合肥市家蝇抗性现状及种群间差异;方法:微量点滴法进行毒力测定;结果:通过对15种杀虫剂的测定,家蝇对5种杀虫剂较为敏感,其中家蝇对氨基甲酸酯类和有机磷类杀虫剂抗
税收是国家凭借手中的政治权力进行的一种强制无偿课征,是国家取得财政收入的一种手段。最开始税收的对象仅仅是一国的国民。随着生产力进一步的发展,商品和人员流动的加快,
设计好预习的作业,预习中去思考、发现;声情并茂的朗读,使学生加深对文章理解,示范朗读易引发学生的共鸣;恰当提问,能激发思维和情趣;认真倾听学生发言,发现亮点并以积极评价
进入21世纪以来,机器人就在人类生产生活的各个领域被广泛地应用,在日常生活中有服务机器人、娱乐机器人、扫地机器人,在工业应用中也有机器人代替人类进行搬运、焊接、切割
已有的研究表明,社会互动推动了家庭的股市参与。依据社会互动推动家庭股市参与不同机制的理论基础和预测,本文对不同的具体机制进行了研究,我们发现在局部品支出比例高、收
目的探讨社区医疗卫生服务中心对于所在社区老年2型糖尿病患者,采取积极有效地宣传、提供咨询等干预手段,使此类人群了解糖尿病的发病机制、并发症、危害、治疗手段等方面,以
律师协会惩戒权是律师行业基于职业独立性故而享有的对违规行为的一种动态纠错手段。这一肃清行业内部纪律的重要权力源于行业成员的让渡集合而成,目的就是为自己管理自己的
目的探讨百事乐胶囊对慢性应激抑郁小鼠行为学及血清白细胞介素1β(IL-1β)和肿瘤坏死因子α(TNF-α)含量的影响。方法 60只雄性昆明种小鼠随机分为正常组、模型组、百事乐胶