论文部分内容阅读
20世纪90年代初期,我国科学家钱学森院士等人提出了用于处理“开放的复杂巨系统”及相关问题的方法论一综合集成法。综合集成法的构思是将人集成于系统之中,采取人一机结合的技术路线,充分发挥人和计算机各自在信息处理方面的优势,解决那些单靠人或计算机都难以解决的问题。1992年,综合集成法被进一步发展为综合集成研讨厅体系,其要点是借助专家研讨和智能化信息处理工具,把综合集成法中的个体智慧明确上升为群体智慧。
在综合集成研讨厅的应用过程中,已经发现:来自互联网的权威信息可被视为一个“特殊专家”的重要观点,对于启发、激活专家思维具有重要意义。然而在存在时间压力的情况下,频繁的信息检索以及随之而来的信息过载将极大加重用户(专家)的工作负担,导致传统的信息获取方式在综合集成研讨环境中难以使用。因此,我们需要一种主动化的信息获取方法,在研讨进行过程中主动感知当前话题,自动根据话题选择合适的检索词进行检索,并主动将检索结果推送给相应的用户。这一过程涉及到结构化领域词典的构建、研讨话题的实时提取及研讨用户兴趣建模等关键问题,本文针对这些问题开展了研究,具体研究内容和成果包括:
1.提出了一个主动信息获取技术框架。该框架主要包括结构化领域词典构建模块、研讨文本分析模块、用户兴趣模型构建模块及个性化信息检索与过滤模块。该框架的工作流程为,在研讨开始前,根据研讨所在领域搜集相关背景资料,生成研讨所需结构化多领域词典,并对参与本次研讨的用户,根据其历史发言记录建立兴趣模型;在研讨进行过程中,定时读取研讨发言,生成反映研讨主题及所在领域的话题,判断并跟踪话题的变化;当话题发生变化时,生成检索词送入搜索引擎进行检索,将检索结果依据研讨文本内容进行过滤,将得到的与研讨相关的信息根据用户兴趣模型进行筛选,得到个性化的信息推荐给相应用户。该框架的设计符合研讨厅本身研讨内容领域性强、信息快速流动变化、用户作为一个整体协同开展工作等特点,有助于指导主动信息获取中相应研究工作的开展,其应用与实施也是对现有研讨厅环境的重要补充。
2.提出了一种结构化领域词典生成方法。该方法主要包含两个步骤:1)采用潜在话题模型建立领域与词汇之间的关系,从多领域语料中挖掘各个领域的领域术语;2)在每个领域的语料上,采用词问关联范式(word associationnorm)度量领域术语之间的相关性,学习该领域术语之间的层次关系。本文分别在中英文语料上二进行了实验,并采用人工与自动结合的方法对算法进行了评价。实验结果表明,方法挖掘出的词条能够很好的表示相关领域的内容,学习到的层次关系能够有效的反映所在领域的结构特点,同时比现有技术具有一定的优势。
3.提出了一种新的基于标签的发言段落话题表示方法。首先,针对研讨环境中发言文本短小、领域性强等问题,选取已标注过的文本作为背景语料,分别采用语言模型、潜在狄利克雷模型(LDA)、概率作者话题模型及语言模型与LDA模型的组合,建立标签与组成文本的特征词之间的关系模型,再将该模型用于研讨文本话题表示中,提取标签形式的话题。该方法相比传统的关键词话题表示方法,所提取的话题主题性强、意义更加明确。
4.提出了一种基于子讨论结构的研讨文本建模方法。该方法将研讨发言依据其内容,按照时间顺序聚成不同的类,每个类别为一个子讨论。再将各个子讨论根据其在研讨中的重要程度进行组合得到整个研讨的模型,并将模型用于外部相关信息识别及历史研讨检索任务中。实验结果表明,本文提出的方法相比其他传统方法能够有效的发现讨论的子主题,在相关应用任务中取得了更好的效果。
5.提出了一种面向研讨层次结构用户个性化兴趣建模方法。该方法利用研讨过程中用户的发言、用户之间的回复关系及研讨所在的领域,分别对用户在各个领域及领域内部的兴趣进行形式化的表示。本文将得到的用户兴趣模型用于新研讨推荐、外部新闻信息推荐及研讨用户检索等任务中。实验结果表明,该模型能够反映用户的兴趣及用户之间的关系,是向用户推荐高质量、个性化信息的重要依据。
6.设计了一个面向综合集成研讨环境的主动信息获取系统。综合应用上述研究成果,本文给出了综合集成研讨环境中的主动信息获取系统的概要设计,叫确了各个模块的功能和实现方法,为系统开发奠定了基础。