论文部分内容阅读
随着电子商务的快速发展,在线购物网站数量以及网上商品种类不断的增加,顾客要从购物网站找到自己满意的商品也变得越来越困难。为了找到最符合自己要求的商品,顾客只有花费大量的精力去访问各个购物网站,手工查找和比较各种商品,而结果往往不令人满意。 购物比较系统就是在这种应用背景下出现的,它可以帮助消费者从大量的购物网站中迅速找到真正所需的商品信息。用户只需向购物比较系统发送查询请求,系统就会从各个购物网站抽取出符合用户要求的商品信息列表。 现有的购物比较系统存在以下不足之处:(1) 手工构造封装器方法的局限性大,可扩展性差。当一个新的信息源加入或者已有的信息源结构发生变化的时候,开发人员必须重新手动构造一个新的抽取规则。(2) 基于启发式规则的封装器归纳法使用简单的启发式规则来归纳确定网页中特定信息片段的语义,自动化生成封装器。但是这种方法的启发式规则太过简单,因此一般只能抽取商品名称和价格这两种商品属性的信息。 为了解决以上问题,本文提出了一种基于领域知识的封装器归纳生成法(Domain Knowledge-based Wrapper Induction DKWI)。对于每个要抽取的信息源,DKWI方法利用已构造的领域知识库自动化生成相应的封装器,然后使用这些封装器进行信息抽取。DKWI方法不仅可以抽取商品的名称与价格信息,而且还可以抽取出与领域相关的商品的其他属性信息。例如,在图书领域,DKWI方法还可以抽取图书的名称、作者、出版社、ISBN等信息。 基于DKWI方法,设计实现了一个基于领域知识的个性化购物比较系统—eShopper系统。对于每一个购物网站,eShopper系统通过DKWI方法自动化生成能够抽取该网站商品信息的封装器。当用户需要查询感兴趣的商品的信息时,只需向eShopper系统发送一个查询请求,系统接收到该请求后,立即向各个在线购物网站发送对应的商品查询请求,然后使用对应的封装器从各个网站返回的查询结果网页中抽取商品信息,并以结构化的形式进行集成和存储。最后按照用户的需求对这些商品信息进行比较、排序,并把结果返回给用户。