论文部分内容阅读
随着互联网技术在全球的快速发展,网络电视(IPTV)的发展也越来越成熟,在人们的生活中也越来越普及,用户数量也每年都在增长。用户可以在IPTV中点播感兴趣的视频,因此IPTV系统中的视频播放源的质量和数量直接影响着IPTV系统的发展。随着视频资源的爆炸式增长,如何高效的选择用户感兴趣的高质量视频资源是IPTV系统的一大难题。本文通过信息采集技术获取互联网上各大视频网站上的视频信息,采用相似性匹配技术整合采集到的视频信息,再根据不同评价标准和评价方法对视频做出评价,该系统为IPTV系统选择视频资源提供了数据支持。本文的主要研究内容如下:首先,采用广度优先遍历算法和多线程的处理方式,并利用视频网站整体结构、页面布局和网址正则表达式等一系列条件,对各大网站视频信息进行采集,提高了信息采集的效率。在视频信息抽取时,通过采用基于规则模板的信息抽取技术,快速、高效的将视频网站上非结构化的视频信息转化为结构化的视频信息。其次,通过采用文本相似性和字符串相似性等多种相似性结合匹配算法,将多信息源的视频信息整合成统一标准的视频信息。在文本相似性计算过程中,采用TF*IDF算法提取文本特征词,利用空间向量模型计算相似度。再次,采用观众分析评价方法结合视频的基本特征属性信息评价视频,为IPTV系统选择高质量、高收视率和用户满意的视频资源做出指导。最后,设计实现了视频信息采集与评价系统,利用网络爬虫技术和字符串、文本相似性匹配技术,采集并整合视频信息,根据评价指标评价视频信息。