论文部分内容阅读
通过分析现有科技论文管理系统不足和用户需求,提出了论文管理必须深入文本内部对核心段落进行主题标引的观点,采用知识—概念节点—标引主题—文本载体的层次化映射方法,使用户能够对论文的知识进行较细致的标引,能够方便地重用论文知识。在系统的数据结构方面:采用了文档提取结构记录用户摘录的知识文本;采用主题和次要主题所组成的文本主题结构来描述论文的知识主题;采用学科概念网表示论文所属学科的基本知识。在标引算法方面:提出了一种根据概念节点在概念网中位置关系形成主题半径的文本主题标引方法,该方法以读者标记段落作为单独标引处理单位,以各段落的标引结果计算产生全文标引结果,从而达到深入标引科技论文核心段落的目的。该方法包括计算主题半径,排除干扰词,权值调整,最后生成论文的文本主题结构。实验表明本标引方法具有较高的可信度,有较好的识别率。另外系统设置了根据标引结果对概念网进行扩展的模块,以实现符合读者认知特点的学科概念网改造。在论文知识检索方面:在分析论文知识检索需求和现有检索方法的基础上,设计了基于文本主题结构标引的论文知识检索算法,实验表明本文提出的标引方法能够较好地检索到段落内部知识。在系统的个性化实现方面:通过分析读者的阅读习惯及系统平台特点,设计了一种个性化计算方法,本方法引入了相似度校正系数计算读者的重点阅读主题集合,采用Web Services技术作为信息获取途径,实验表明本方法能够较好地计算读者的兴趣主题,并实现了个性化的新知识获取。原型系统实现了4层的映射关系,达到了对论文核心段落知识进行标引的目的。