面向主题服务的Web信息采集和处理系统的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wjmwjm009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展及其影响力的不断扩大,网络上的信息量也随之不断增加。面对浩瀚如海的网络信息,通用的搜索引擎往往返回过多的无用结果。如何把信息的采集和处理转向主题化,提供面向主题的服务,让用户获得更精准的信息,是本文研究的主要内容。 本文总结和分析了Web信息采集、并行编程框架、文本分类、文本聚类等相关理论和技术,以面向教育新闻和图片两大主题为目标,实现了一个能够采集、存储和处理海量数据的教育新闻信息和Web图片的采集和处理系统。对于教育新闻信息,针对Web新闻信息的特殊性,提出了利用启发式规则来识别主题型新闻页面和目录型新闻页面的方法,具有较高的识别率。同时运用基于简单贝叶斯的自动文本分类技术以及基于Lingo算法的自动文本聚类技术,实现了教育新闻的聚合和检索功能,具有较好的用户体验。在Web图片信息的采集和处理方面,提出了基于DOM树的Web图片文本信息的提取方法,为基于内容的图片检索研究提供素材。在系统设计方面,构建了通用的面向主题的Web信息采集和处理框架,能够很容易地扩展到其他主题信息的采集和处理。同时,整个系统基于Hadoop并行框架实现,具有高性能、扩展性较强的特点。 本文通过采集、处理各类教育新闻数据来对系统进行了测试,实验结果表明,应用上述的相关处理技术后,系统在分类、聚类效果等方面都有较好的体现。
其他文献
随着移动设备技术的不断发展,手机、PDA、电子书阅读器等手持电子设备已经广泛应用于人们的生活,硬件的性能和显示能力有了质的飞跃,而硬件设备的技术发展也带动了手持阅读器软
“仿真是一种基于模型的活动”,任何仿真系统都不能离开模型的支持,如果每次开发新的系统都要重新建立模型,费时费力。随着仿真系统的日益复杂,导致仿真模型的结构也日趋复杂,模型
流媒体(Streaming Media)技术是一种实时的连续时基媒体,媒体的分发不需要等待整个媒体文件下载结束就可以播放,极大节约了时间和播放硬件成本。广泛应用于多媒体视频点播,电
面对因特网上海量的信息,如何给用户最感兴趣的最需要的信息,成为各网站的一个重要的问题。为解决这个问题,个性化推荐系统应运而生。 基于用户的协同推荐算法被广泛使用在推
Web应用的性能测试是保证Web软件质量和可靠性的重要手段。通过性能测试不仅能够验证系统是否满足需求设计中对系统响应时间等指标的要求,还能够分析得出系统瓶颈可能存在的区
随着软件应用和网络技术的飞速发展,人们对分布式应用的需求越来越大。缩短复杂应用系统的开发周期、降低开发成本和难度、提高系统的可扩展性和可复用性、提高软件质量成为
快速傅立叶变换(FFT)是公认的二十世纪最重要的十个算法之一。它在信号处理,多媒体压缩,模式识别,计算化学等众多领域有着广泛的应用。众所周知,傅立叶变换的研究是从一维开始,并
随着信息技术的发展,Pub/Sub系统由于具有异步和松耦合的特点,被越来越广泛的应用到金融、供应链管理、物流等领域。在这些应用中,用户对具有各种特定逻辑或时序关系的复合事件
随着网络技术的快速发展、企业信息化的不断深入,企业中分布的数据、信息和知识更加多样,更加复杂,企业信息系统更加开放。如何实现企业中这些数据、信息和知识集成和共享已成为
电子政务为社会公众及政府自身提供一体化的高效、优质、廉洁的管理和服务,其核心是合理有效地开发和利用政府现有的信息资源,最终实现政务信息在政府内部、政府部门间、政府与