互联网环境下法学领域知识的自动获取与智能检索

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:wucaixia303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蓬勃发展的Internet给人们带来丰富信息资源的同时也带来了新的问题。由于Web页面的无结构性、Web链接的自由无序和Web规模的急剧膨胀以及Web内容的海量性、多样性与动态性,人们从Web上搜索信息并不容易。这种困难性具体表现为:搜索引擎基本上采用关键字匹配的算法,但是用户实际需求与查询关键字存在较大的语义差距,导致搜索引擎不能理解用户的需求,只要关键字一样,查询结果也总是一样的。  理想的信息检索系统应该是这样的:用户能够自由地表达查询需求,系统能够理解用户的查询意图,并对查询和文档做出合理的表示以进行精确的匹配计算。”Whatyou get is whatyou want”正是当前网络环境下,用户对信息获取的理想追求。  互联网异常庞大,在整个互联网范围内提供通用的精准信息服务几乎是不可能的,为此,本课题将研究焦点集中在领域范围内。我们选择法学学科领域作为试点。人文社会科学的知识是不规范知识的典型代表,绝大部分的人文社会科学知识都是用文字进行描述的,而且没有严格的定义,所以本论文的研究工作是极具挑战性的。  本论文的研究目标有二:第一,在法学领域内探究智能信息检索的手段和方法,包括领域知识自动更新、基于概念的检索、基于链接分析的检索、Web实体的挖掘与检索、知识间语义关联的建立;第二,建成法学领域的专业知识处理平台,包括领域资源获取平台、资源加工平台和知识服务平台。  法学领域内主要有三类核心的资源:法律、案例、律师。其中法律是指各类法律文本、行政法规、规章制度等;案例是指各类审判文书、案例描述、案例评析等;律师资源是指律师的各种相关信息。各类资源之间是相互联系的。法律由各类案件所指引,而律师会代理各类的案件。同时各类资源内部也是相互联系的。法律之间会相互参照,律师之间既相互合作又相互竞争。  本论文在充分挖掘三类资源之间以及资源内部基础上,研究法学领域智能信息检索的新技术和方法,提供领域内信息检索的新体验。根据各类资源的特点,我们分别提出了适合特定资源的检索方法。对于法律,我们利用法律之间的参照关系进行相似法律检索、开展法律聚类;对于案例,我们采用基于向量空间模型、本体检索模型的混合方法,进行相似案例查找;对于律师,我们采用基于多源信息交叉验证的信息融合模型,从互联网上自动的采集律师信息,并根据案例、法律提供律师的推荐。这些新的方法克服传统信息检索的以下缺陷:一、传统信息检索基于向量空间模型,未涉及到语义信息,对于诸如一词多义、同义词等未有处理;同时,向量空间模型还有着维数灾难影响,当向量维数过高时,相似度计算、文本聚类等会受到主题漂移的影响。而基于参照关系的链接相似度、基于概念的语义计算都考虑了文本内在的语义信息,能够理解用户的查询意图,提供的检索结果也更精准。二、传统信息检索在一个广域内进行,信息量大,查询不准确,对于面向人物的信息检索支撑不够。垂直检索时传统检索的细分和延伸,面向律师的垂直检索系统,自动整合律师信息,提供面向律师的专业检索,针对性强、信息集中而且丰富。  本论文的贡献在于:研究了面向领域的资源获取、资源加工与知识服务的方法,利用智能信息检索的相关技术提高领域信息检索的精度,构建资源获取平台、资源加工平台、知识服务平台,提出领域了领域知识处理的框架。法学资源采集平台保证领域资源的实时抓取、自动更新;法学资源加工平台包括法学领域实体的抽取(如法律实体、律师实体)、法学领域的关系的抽取(如法律的参照关系、律师的合作竞争关系、案例对法律的引用关系等)、法学概念的抽取以及法律文档的概念标注、法学资源的结构化抽取、基于交叉验证的异源数据融合等;法学知识服务平台在采集平台和加工平台的基础上,提供法学领域的知识服务,这些服务面向采用智能信息检索的新手段,提供诸如基于对象的法律检索、基于概念的案例检索、律师信息集成及律师推荐等知识服务。
其他文献
在互联网技术迅速发展的今天,Web系统的应用已经渗透到各个行业,随着用户数量的增多,企业对Web系统的需求越来越复杂,使Web网站的性能优化的问题显得更加重要。  在目前互联网
随着RDF越来越被广泛利用于知识管理领域,一个有着较大规模的RDF知识库就显得越来越重要。目前,大多数RDF知识库都是通过抽取和挖掘Web上的数据来创建以及扩大的。它们的数据源
随着XML的广泛应用,XML数据呈现爆炸性增长,如何有效的管理XML数据成为一个挑战性问题。查询处理和查询改写技术是数据管理研究中的一个核心问题,通过一些方法将已初始的查询改
TD-SCDMA (Time Division-Synchronous Code Division Multiple Access,时分的同步码分多址技术)网络日趋成熟,为TD-SCDMA用户提供丰富多彩的增值业务成为一个被业界普遍关注
计算机技术和多媒体技术的发展极大地改变了人们的生活和工作方式。视频、音频、图像等媒体形式对人们的生活产生了越来越大的影响。本文所研究的是DirectShow技术在音视频采
在多媒体技术和互联网迅速发展的今天,越来越多的音乐涌现在人们的生活中,随之而来的,面对海量音乐时,人们如何迅速了解音乐的内容,如何迅速从海量音乐中检索音乐,如何高效的管理音
随着计算机网络的飞速发展,网络安全问题日益突出。当前网络安全防护技术大多是静态的安全技术,如路由器过滤、防火墙、漏洞防堵等。静态安全技术对防止系统被非法入侵起到了
随着计算机技术、电子技术的迅速发展,视频监控技术在人们生产生活的各个方面得到了广泛的应用。传统的视频监控技术存在很多局限性,如需要大量的监控人员、报警精确度不高、响
社会的发展使不同业务间的协作越来越重要,互联网的发展和各种标准的应用为业务间的协作提供了物质基础。Web服务作为资源互用、互操作的重要技术,不仅已用于电子商务、电子政
进入21世纪以来,信息化对社会发展的影响日益深刻。随着信息化的快速发展,网络安全的地位也变得越来越重要,一些黑客会以非法的目的攻击、入侵工作网络或在其上搭载着重要的系统