基于改进TF-IDF和优化注意力机制的新闻推荐算法

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:greenwin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的爆炸式增长带来了严重的信息过载问题,而新闻推荐系统可以帮助用户快速,准确的获得有效信息,节省大量的阅读成本。新闻文本特征和用户特征是新闻个性化推荐中最重要的两个因素,因此研究工作主要在自然语言处理和深度学习的基础上围绕这两个方面进行展开,主要工作如下。(1)新闻文本特征方面,提出一种改进的词频逆文档(Term Frequency-Inverse Document Frequency,TF-IDF)的方法,引入熵和特征项的分布信息(Distribution Information,DI),将关键词的一些属性进行计算从而选出更合适的关键词组成文本,以提高新闻文本描述文件的质量。然后将新闻文本的描述文件使用词向量中连续词袋模型(Continuous Bag of Words,CBOW)进行向量化,最后使用弱监督的去噪自编码器对新闻文本的描述文件进行降维,以提升新闻文本特征的新颖性。(2)用户特征提取方面,设计了一种attention-LSTM网络结构。该结构不同于传统的循环神经网络结构,将attention用于在LSTM的输入时刻,即attention的输出是LSTM的输入,同时attention产生的参数对LSTM多个门的开闭产生影响,而且加入对长短期的记忆的计算,结合了每个上下文向量的权重信息以提高对用户历史记录的关注,使得更加符合用户喜好的特征。(3)基于对新闻文本特征提取方法的改进和用户特征提取方法的优化,设计了改进TF-IDF和优化注意力机制的新闻推荐算法。该算法使用改进的TF-IDF方法提取文本特征,最大化满足新闻的新颖性;该算法使用attention-LSTM记录用户的历史喜好,最大化记录用户的兴趣变化趋势。仿真实验表明,根据评价指标F1和AUC,相比于使用TF-IDF和循环神经网络的新闻推荐算法,改进的TF-IDF和attention-LSTM结合的新闻推荐算法有着更好的表现,其中,F1提升了0.029,AUC提升了0.047。
其他文献
汉语助词“了”是留学生在汉语习得过程中需要掌握的语法现象之一,在日常学习和生活中助词“了”出现的频率也很高,是留学生在汉语习得时容易出现的语法偏误之一,也是对外汉语语法教学部分的重难点。韩国留学生习得汉语助词“了”时产生的偏误现象主要有五种类型,分别是遗漏、误加、误代、错序和混淆,其中遗漏和误加在偏误类型中占的比例最高。产生这些偏误的原因主要是由于助词“了”自身语法规则和用法相对复杂、学习者母语负
随着我国金融市场的快速发展,金融交易量在屡创新高,同时金融交易中问题频出。金融服务者销售金融商品时通常以欺骗、诱导、虚假宣传等方式推介,违反了金融服务者缔约说明义
如今,大多数企业都使用信息系统来进行业务过程管理。其中,很大一部分的信息系统,都会使用工作流模型描述任务关系并维护整个业务过程。伴随着业务过程的节点数量增加以及结
随着全球定位系统(GPS)移动设备的普及,设施的布置问题受到了广泛关注。海量的用户位置签到数据对于设施选址研究工作的开展有着积极的意义,传统的目标数据资源如地理信息数据、用户轨迹数据等,通常都是通过线下人工收集或者通过目标对象携带GPS设备采集获取的,然而这些数据资源获取形式往往暴露出获取数据成本高、工作量大、效率和时效性低等问题。针对目前数据资源获取中存在的问题和互联网上数据资源与日俱增的特点,
随着5G时代的到来,互联网业务开始快速增长,移动终端迅速普及,海量的物联网终端设备不断接入云计算平台,从而带来了带宽不够,功率过高,云计算中心不能实时分发决策数据等问题。在当今这个万物互联的时代,每个移动终端不仅仅是内容消费者,同时也是内容制造者,而目前的内容分发网络技术(CDN)对于移动终端用户往云端数据中心传输的海量数据没有进行任何处理,仅对内容提供商提供给移动终端用户的数据进行了缓存。同时在
在长距离气力输送系统输送的过程中,会出现一些影响物料颗粒正常输送的问题,例如系统的压力损失严重、管道的磨损、物料颗粒的破碎、管道的堵塞等问题。其中,磨损对输送管道以及其他构件的使用寿命影响非常严重,而管道内气流速度过大是导致管道磨损严重的关键影响因素。本文以水平段管道为研究的主要对象,通过设计优化管道的尺寸和结构,以减小管道内的气流速度,使系统能够保持稳定输送的状态,从而达到减小管道磨损的目的。针
纳米结构材料,如多孔金属氧化物,金属纳米颗粒,多孔碳及其复合材料,它们已被广泛地应用在能量转换和存储装置,催化剂等方面。在电催化方面,贵金属虽然是良好的催化剂,但由于价格昂贵,不能广泛应用。因此,研究者们开发过渡金属基材料作为高效电催化剂来代替贵金属材料。金属有机框架(MOFs)的热转化为合成常规方法难以获得的过渡金属基功能纳米材料提供了有希望的方法。本文主要内容为调控金属有机框架结构的形貌并制备
目的:脂联素(Adiponectin)作为一种脂肪细胞分泌的血清蛋白,在多种肿瘤的发生发展中发挥着一定的作用。本实验的目的在于研究不同浓度脂联素对不同乳腺癌细胞增殖状态的影响
本英汉翻译实践报告源文本选自于《共同构建知识》(Constructing Knowledge Together)的第二章。本书共包含七章,由加拿大教育学家戈登.威尔斯(Gordon Wells)以及他夫人(Gen Ling Chang-Wells)共同编写而成,是一本教育学应用研究著作。戈登.威尔斯(Gordon Wells)撰写的第二章主要论述了对话在教与学中的重要性。源文用词严谨,语义逻辑清晰
用生物材料引导牙周组织再生是修复缺损牙周组织的潜在有效途径。用于引导牙周组织再生的支架除了要给牙槽骨种子细胞提供适宜的生长环境外,还要阻止生长速度较快的牙龈上皮细胞长入缺损区,给种子细胞提供足够的时间和空间,保证缺损组织的正常再生。本课题的目的是构建未来有可能用于牙周组织引导再生的丝素(SF)/聚己内酯(PCL)/纳米羟基磷灰石(nHA)双层复合材料。该材料由上、下两层材料组装而成,其下层是采用冷