论文部分内容阅读
当今社会,信息已经高度网络化,门户网站也取代了报纸等传统媒体成为大众获取第一手新闻资讯的首选方式。门户网站的新闻优势明显,其新闻内容即时快速,来源广泛,门户网站版面不受限,便于更新,这些特点让网络新闻蒸蒸日上。但是与此相应,网络新闻的劣势同样突出,因为消息来源广泛,新闻量极大,导致其新闻时效性得以提升的同时,真实性却难以保证,这就要依靠大量后续新闻跟进以弥补真实性的缺失。并且网络门户网站繁多,当用户在不同门户网站搜寻相关新闻时,将会不可避免的阅读大量重复消息,造成时间的浪费。本文根据新闻的特性对TF-IDF算法进行优化改进,对比选取合适的分词器,实现了一个针对指定新闻进行相关新闻扩展阅读的个性化新闻推荐系统。系统通过网络爬虫从多个门户网站获取大量待推荐新闻,当用户指定某条新闻时,系统利用优化过的TF-IDF算法对该新闻提取关键词,通过关键词对比得出待推荐新闻,并对其优化排序,最终得出推荐结果,提升用户的阅读效率和阅读体验。