基于快速构建模板的购物信息抽取方法

来源 :计算机应用 | 被引量 : 8次 | 上传用户:juejue_wang11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法。研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型。实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分
其他文献
现有的信任模型在信任路径搜索方面存在两个方面的不足:搜索过程中影响信任值的因素考虑得尚不够全面,或者同一而论;同时,对邻居节点选取时,忽略了双方交互次数的重要性。针对以上两点问题,基于图论提出了一种路径过滤性搜索算法。该算法首先引入基于交互次数的诚实可信度,用以进一步衡量节点的可信程度,并作为搜索优先级的依据,使得搜索的优先顺序更加合理。同时基于影响节点可信度的多重因素进行过滤性搜索。通过算法分析
针对区域复制篡改检测算法检测效率低问题,提出一种基于相位相关的检测与定位算法。算法首先对图像进行滑窗式分块,滑动步长为多个像素,通过对图像块灰度均值排序筛选出可能匹配的图像块;然后,利用相位相关的互功率谱脉冲函数峰值确定两个图像块是否匹配以及二者的相对位移;最后,通过统计匹配块对偏移距离方法消除误匹配,并对篡改区域进行标记。实验结果表明,该算法不仅检测效率高,而且对有损压缩、平滑滤波、噪声等常见的
通过对软件网络行为的研究,提出了通过结合动态分析软件行为技术和网络消息语义解析技术对软件网络行为进行分析的系统模型。系统主要由动态二进制分析模块、消息语义解析模块和网络行为分析模块组成。通过动态二进制分析,利用行为监控和劫持机制,获取软件对于应用程序编程接口(API)函数和系统函数的调用情况;通过动态污点分析,对消息语义进行解析。实验验证表明,软件行为和消息语义解析的结合可以用于分析软件网络行为。