多页面特殊网页文字提取与合并技术研究

被引量 : 0次 | 上传用户:littleycy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页中的文字,包含的信息量大、易于复用、占用空间小,是网页种类信息中占绝对比例的信息形式,也是人们从网页提取的所有信息中最多的形式。目前,Web挖掘的研究正处于发展阶段,在普通网页的文字提取研究领域也已形成众多理论。然而有一类网页,由于采用了脚本,导致网页在打开时执行脚本而使计算机软件系统受到恶意代码入侵,或打开后的网页文字受广告因素等影响而无法被正常浏览,或被脚本限制而使文字无法被复制提取。这类特殊网页的文本相对普通网页更有价值,特别是此类网页经常被网络犯罪份子利用来为他们的活动隐匿证据,网络监察部门进行网络犯罪的取证,必须采用一定的技术。本文深入分析了网页脚本的编制及工作原理,采用运行期类型信息技术和扩展脚本技术从手工提取和自动提取两个角度提出了特殊网页文本的提取与合并方案,并解决了过滤干扰码问题。其主要工作为:研究发现所有特殊网页的限制功能都来源于其源代码中的脚本,研究采用扩展脚本屏蔽其限制功能,将特殊网页普通化;网页中的干扰码都是在正文中插入的颜色为背景色的其他字符,研究扩展脚本限制干扰码发挥作用,达到过滤干扰码的目的;提出运行期类型信息技术,开发软件,绕过恶意脚本,并自动提取文本;研究多页面的相似性,通过记录第一页面的提取点和搜索链接地址,自动提取多页面文本进行合并;开发出软件模型,测试其对普通网页、特殊网页中的文字的自动提取能力和自动过滤干扰码的能力。实验证明,论文提出的所有方法均能有效抵制对文本提取的限制,而基于RTTI技术的软件自动提取法是功能最强的方法。文中对特殊网页的分析及其文本提取方法的研究,对网页信息挖掘技术研究和网络应用、网络监察具有重要的实际意义。
其他文献
随着经济的快速发展,企业与企业之间的竞争越来越激烈。要在激烈的市场竞争中占据优势,实现持续、快速、健康发展,质量是灵魂,也是第一生命力。而好的质量要靠一个好的质量制
制造执行系统作为一种连接上层生产计划与底层工业控制之间的管理信息系统,能够有效地改善制造过程的管理,降低生产成本,提高生产效率,受到了越来越多制造企业的关注。制造执
聚对苯二甲酸乙二醇酯(PET)具有高的强度、电绝缘性、耐热性和耐化学药品性等优良性能,将PET作为工程塑料使用已是国内外热门的研究课题。特别是大量的回收PET废弃料,如何将
随着科学技术不断发展和人民生活水平的提高,高档涂布纸(铜版纸、板纸)需求量越来越大,致使涂层用丁苯胶乳需求量不断增长,推动了羧基丁苯胶乳的快速发展,研究和开发新型羧基
随着2009年国家四万亿经济刺激计划的出台,银行的信贷资金激增,其中很大一部分都流向了各种各样的地方政府投融资平台。2009年下半年开始,地方政府投融资平台信贷风险问题受
20世纪90年代以来,消费文化逐渐在中国形成。消费文化对人们生活的各个方面俱产生了广泛的影响。在此背景下,中国的幽默作品也具有相应的消费文化特征。通过考察,笔者认为,已
随着半导体工艺的进步,集成电路变得越来越复杂,混合信号系统芯片变得越来越流行。混合信号系统芯片采用近似的自顶向下的设计方法,系统级建模是混合信号系统设计的第一步,对
随着新医改政策的出台,提出解决目前困扰民营医院的五大问题--医保定点的审批、民营医院税收的优惠、医师职称的评定、医疗人才的流动、医师的继续教育问题,给目前发展困境中
近年来,随着我国利率市场化进程的不断加快,我国运用利率工具进行宏观调控的日益频繁,商业银行经营的利率环境波动性加大,利率风险更加凸现。同业拆借市场作为银行及其他金融
学术出版是对人类文化研究成果进行保存和传播的重要途径。在文化建设中起着至关重要的作用。在中国,大学出版社成立伊始就肩负着学术出版的重任。学术出版是大学出版社的宗