论文部分内容阅读
随着移动互联网的飞速发展和移动智能设备的大规模普及,人们获取新闻信息的渠道也越来越多。视障群体由于在视力方面的缺陷,仅能依靠听觉和触觉从外界获取信息,不能像健全人一样便捷地使用手机、平板电脑等智能设备,获取新闻信息的途径较为匮乏,选择性极少。现有的新闻类应用软件很少有针对视障群体做过适配和优化,视障人士几乎无法使用,阅读效率非常低。因此,开发一款面向视障群体的无障碍新闻类软件具有十分重要的意义。在此背景下,实验室与中国盲文出版社合作希望能开发一款适合视障群体使用的无障碍移动新闻系统。本文首先从保证新闻数据的全面性和多样性出发,提出并实现了一种支持动态页面爬取的新闻网络爬虫。在URL爬取方面,该爬虫以无界面浏览器Htm1Unit为基础,通过模拟用户点击或滑动等行为触发动态网页的脚本事件,从而解决了动态页面中URL难以获取的问题。然后,在URL去噪方面,本文设计了一种基于正则表达式的去噪方法,可以有效去除非新闻链接,从而提高新闻网络爬虫的效率,避免资源浪费。在最后新闻数据提取方面,采集并定制模版,实现了高准确率的基于模版的新闻信息提取方法。其次,为了提高视障群体阅览新闻的效率,提出并实现了一种基于TextRank改进的自动摘要方法。本文首先采用BM25相似度计算方法实现了经典的TextRank算法,然后将新闻标题和小标题的结构作用考虑进来,通过计算新闻标题、小标题与各句子间的相似度得到调整向量,最后通过调整向量影响各句子收敛后的TextRank得分,经过实验分析改进后的方法优于经典的TextRank方法。最后,本文在以上研究的基础上设计并实现了面向Android平台的基于自动摘要的无障碍移动新闻系统,视障群体通过无障碍客户端可以更便捷更高效地获取新闻信息。