Web个性化推入技术与展望

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:qiaotongqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术及该领域的主要研究成果进行了综述。讨论了实现个性化服务的关键技术并对个性化服务技术进一步研究工作的方向进行了展望。
  关键词:个性化;Web挖掘;推荐系统
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2010)11-2608-02
  
  Personalized Recommendation Technology Based on Web
  CUI Li-xin, ZHANG Chun-hua, ZHAO Chun-xi
  (Aviation University of Air Force, Changchun 130022, China)
  Abstract: The paper introduces the expressing and updating of user profile, the expressing of resource profile, personalized recommendation technology and the achivements on these issues. Then the critical technology and the aspects fucused on for future of personalized recommandation are discussed.
  Key words: personalization; Web minin; recommendation system
  
  1 概述
  随着Internet的飞速发展,World Wide Web上的网页量正在呈指数的增长。Web已经成为获取信息最重要的手段之一。海量的网页在为人们提供包罗万象、无比丰富的信息资源的同时,也向人们提出了如何快速从信息海洋中获取其所需信息的挑战。目前Web系统为所有用户提供相同的服务,然而Web用户的需求千差万别,用户希望Web系统能够根据他们特性的不同提供个性化的服务。针对用户特性并向用户提供个性化服务已经成为Web技术的一个研究热点。
  所谓Web个性化实质上就是一种以用户需求为中心的Web服务。首先,不同Web用户通过各种途径访问Web资源;其次,系统学习用户的特性,创建用户访问模型;最后,系统根据得到的知识调整服务,以适应不同用户的个性化需求。因此创建Web个性化服务系统的一般步骤为:
  1)收集用户的各种信息,如注册信息,访问历史等;
  2)分析用户数据,创建符合用户特性的访问模式。
  目前存在着许多个性化服务系统,它们提出了各种思路以实现个性化服务。个性化服务系统根据其所采用的推荐技术可以分为两种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个If-Then语句,规则决定了在不同的情况下如何提供不同的服务。基于规则的系统优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。基于内容过滤的系统如WebPersonalizer等,它们利用资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。协作过滤系统如:WebWatcher等,利用用户之间的相似性来过滤信息。基于协作过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题,一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用户。另一个是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越低。还有一些个性化服务系统同时采用了基于内容过滤和协作过滤这两种技术。结合这两种过滤技术可以克服各自的一些缺点,提高协作过滤的性能。
  2 个性化服务的实现
  为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一种合适的表达方式。为了把资源推荐给用户,必须组织好资源,选取资源的特征,并采用合适的推荐方式。
  2.1 用户描述文件
  对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。用户描述文件刻画用户的特征与用户之间的关系。用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。在用户初次使用个性化服务系统的时候,系统可以要求用户注册自己的基本信息和感兴趣的内容,也可以隐式地收集用户信息。在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的变化而变化。
  目前基于Web日志的挖掘技术发展迅速,利用Web日志可以获得页面的点击次数、页面停留时间和页面访问顺序等信息。通过分析Web日志可以获得相关页面相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新用户描述文件。
  2.2 资源描述文件
  资源的描述与用户的描述密切相关,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示。
  基于内容的方法是从资源本身抽取信息来表示资源,对文档来说,关键的问题是特征选取:一是选取最好的词,二是选取的词最少。基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档推荐给对该类文档感兴趣的用户。文本分类方法有多种,比如:朴素贝叶斯,k最近邻方法等。资源的类别可以预先定义,也可以利用聚类技术自动产生。
  2.3 个性化推荐
  个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过滤技术。
  基于规则的技术中,规则由用户定制,也可以利用基于关联规则的挖掘技术来发现。信息推荐时,首先根据当前用户阅读过的感兴趣的内容,通过规则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度(或重要程度),对这些内容排序并展现给用户。利用规则推荐信息依赖于规则的质量和数量,其缺点是随着规则的数量增多,系统将变得越来越难以管理。
  信息过滤技术可分为基于内容过滤的技术和协作过滤技术。基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源,其优点是简单有效,缺点是难以区分资源内容的品质和风格;协作过滤是根据用户的相似性来推荐资源,它根据相似用户来推荐资源,所以有可能为用户推荐出新的感兴趣的内容。
  基于近邻用户的协作过滤技术应用比较普遍,它的核心问题是为当前用户寻找k个最相似的邻居来预测当前用户的兴趣。基于近邻资源的协作过滤方法通过预先建立一些反映相关性或相似性的模型,提高系统在预测和推荐时的性能。
  3 问题与方向
  尽管Web挖掘技术已经在Web个性化系统中得到了广泛的应用,但是还存在着以下几个方面的问题:
  1) 隐私问题。目前的Web个性化技术还不能很好的解决这个问题;
  2) 性能问题。实时个性化系统对响应时间要求比较高,系统性能将是一个不可忽视的问题;
  3) 质量评价问题。如何评价建模效果以及系统最终的服务质量是一个非常重要的问题。
  目前已经存在很多个性化服务系统,但个性化服务技术仍有很多值得研究和探讨的领域:
  1) 用户兴趣和行为的表达。跟踪学习和表达用户兴趣是一个最基本和难以解决的问题;
  2) 分类和聚类技术。分类和聚类技术是个性化服务的基本技术,也具有良好的可扩展性;
  3) 安全技术。建立有效的保护用户隐私的机制,才能顺利实现个性化服务。
  参考文献:
  [1] Barrett.How to personalize the Web[M].New York:ACM Press,1997.
  [2] 崔立新,苑森淼.约束性相联规则发现方法及算法[J].计算机学报,2000(2).
其他文献
东北方言在我国东北这片肥沃的黑土地上产生,并且根植于东北特定的风俗文化之中,东北人诙谐幽默的思维形式、豪爽开朗的性格特点形成了独特的话语方式,也是通过东北方言淋漓尽致
摘要:该文针对目前Ad hoc网络密钥管理方案存在计算量大,可信中心难以确定以及密钥更新周期大小难以确定的问题,提出一种基于ECC完全自组织Ad hoc密钥管理方案。该方案为解决计算量大而采用EEC代替RSA, 以完全自组织方式解决可信中心的瓶颈,通过使用双重密钥更新机制克服定期更新大小难以确定等问题。本方案具有计算代价小,安全可靠,扩展性好等优点,适合大规模Ad hoc网络。  关键词:Ad h
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
“诗学”是贯穿本文始终的一个重要概念,本文主要是研究清代云南诗文论著中所呈现的诗学问题。这一论题涉及到这样几点内容:“清代”界定了研究的时间阈限,也把论题置于清代这
唐传奇的出现和创作的繁荣兴盛,与中国传统文化中上古神话、史传文学和六朝小说的兴起、发展有着特殊的关系:一方面,在中国传统文学观念“史贵于文”的影响下,史传的形成和发展
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
范稳的藏地题材小说主要是指他的“藏地三部曲”,即《水乳大地》、《悲悯大地》和《大地雅歌》。可以说这三部作品是作者的呕心沥血之作,作者历时十年,经过不断地进藏进行实地调
本文通过综合地整理、概括越南鲁迅研究的资料,指出了鲁迅研究的“越南视角”的特点和形成这些特点的主要原因。紧接着,论文选取三位分别代表越南鲁迅研究不同方面最具代表性的
汉语语篇衔接问题在留学生的作文中大量存在,学者们也越来越关注这个问题,但是现在还缺少一个明确的汉语记叙文语篇衔接体系描述和建立在大量语料分析基础之上的汉语和中介语语
东北方言是北方方言的一个次方言,东北方言的状态词具有鲜明的地方韵味和地方特色。本文以东北方言的673个状态词为分析对象,从外部形式入手将其分为重叠式、非重叠式和不规则