基于序列比对的动态Web信息抽取算法

来源 :吉林大学学报(理学版) | 被引量 : 0次 | 上传用户:jiesenbone23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.
其他文献
一、外轮未悬挂检疫信号案案情:2004年7月,一艘外籍货轮靠泊码头,我检验检疫人员登轮检疫时发现该船未悬挂检疫旗帜,遂依据<中华人民共和国国境卫生检疫法实施细则>第109条第
设(Z2)^k作用于光滑闭流形M^n,其不动点集具有常余维数r,Jn^r,k是具有上述性质的未定向n维上协边类[M^n]构成的集合J*^r,k=∑n≥rJn^r,k为未定向上协边环MO*=∑n≥0MOn的理想.通过构
探索选矿厂的磨矿-分级过程的工作机理,并重点探讨旋流器组的粒度分级原理及粒度控制技术的实施方法。把旋流器组作为1个集工艺操作,过程检测控制及机电设备启停为一体的综合自动
利用同纬映象函子定义稳定同伦正则态射,并研究了稳定同伦正则态射存在的条件及性质,得到如下结果:若态射f:X→Y有稳定同伦标准分解(g,Z,h),设有A,B及相应的态射i:A→X与P:Y→B,使得gy和ph
根据GenBank中编码猫杯状病毒(FCV)衣壳蛋白ORF2的保守序列,设计并合成了一对引物和相应的TaqMan探针,建立了快速检测FCV的荧光定量PCR方法.通过对该方法的反应体系和反应条件进行
阐述了功率滤波器在变频器-电动机调速系统中的使用原理,重点介绍了它对电动机与系统的效率、功率的因数的影响,最后以实验数据为基础,采用作图比较的方法给出了电动机、系统在不
思想政治课的学科特点,使其在中学教育乃至学生的成长过程中都具有重要的作用,而长期以来在应试教育环境下形成的“副课”意识使得政治教学出现一些问题。本文就如何搞好政治教
漫画是一种艺术,是用简单而夸张的手法来描绘生活或时事的图画。它一般运用变形、比拟、象征、暗示、影射的方法,构成幽默诙谐的画面或画面组,以取得讽刺或歌颂的效果,属于绘画的
肺结核主要是由人型结核杆菌侵入肺脏后引起的一种具有强烈传染性的慢性消耗性疾病。发病时伴有咳嗽、胸痛、咯血、潮热、盗汗、消瘦、乏力、血沉增速、食欲减退等临床特征。
在英语课堂教学中,教师应根据学生的心理特征,结合具体内容,利用英语知识本身的内在美,创设形象、生动、有趣的学习情境,让学生在学习情境中动手、动口、自主探索、合作交流,使学生