基于标题特征和词汇关联的文本结构分析

被引量 : 2次 | 上传用户:zzcko22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本结构分析在信息检索、自动文摘、信息抽取等领域扮演着重要的角色。文本结构分析是将含有多个子主题结构的文本按语义划分成多个部分,每个部分为一个语义段,由一个或多个自然段落构成,不同的语义段描述不同的主题结构。本文主要进行结构分析的对象是包含多个子主题的文本,根据不同文体各自的特点,将科技论文和其它文本采用不同的方法分开处理。科技论文一般具有比较清晰的结构信息,可以通过文中的小标题进行主题段的划分,但小标题的种类繁多、格式多样,给计算机的自动识别带来一定的困难。本文在识别具有数字标号的小标题时,对单纯的数字识别法进行了改进,并提出一种基于特征词的识别法,用于识别没有数字标号的小标题。在此基础之上,将两种方法结合起来,采用层次识别机制构建了标题识别系统。实验结果表明,该系统能以较高的召回率和正确率有效地识别小标题,从而识别出文本的结构。对于非科技论文的结构分析,主要使用文本分割方法,根据不同的子主题对文本进行语义划分,将来可应用于主题聚类任务。目前已有文本分割方法大多只利用了文本表层的词汇重现信息,难以准确体现主题的连续性,分析结果并不理想。本文利用知网引入词汇的语义信息,提出了一种词汇关联计算方法,将语义信息映射到词汇语义关联矩阵中,通过矩阵拆分语义信息对传统的向量空间模型进行改进,以适合加入语义信息后TextTiling算法的紧凑度计算。实验结果表明,使用语义信息与单纯使用词汇重现信息相比,能够更好的分析文本结构。
其他文献
为解决目前矿井水灾应急救援管理中存在的实际问题,本研究将地理信息系统运用于矿井水灾应急救援管理中,让矿井救灾部门及救灾决策者能及时掌握各种水灾应急救援信息,快速调
<正>日前,中国城市经济学会大城市专业委员会在北京召开专题研讨会。中国城市经济学会会长周道炯、建设部原总规划师陈为邦等专家对我国当前城市发展中的一些主要问题进行了
选择金融创新作为毕业论文的题目与我在人民银行所从事的工作有关。周小川在2007人民银行工作会议中指出,要注重对改善金融创新外部环境的研究,以求在放松金融管制、鼓励创新
高校图书馆电子阅览室随着数字图书馆的快速发展吸引着越来越多的上机高校读者。如何为读者提供优质的服务并把它落到实处,本文结合笔者在电子阅览室工作中常见丢失物品并帮助
目的:椎间盘退行性变(intervertebral disc degeneration,IDD)的基本病理改变为椎间盘退变及血管新生。其发病的病理生理基础为椎间盘的血管化以及椎间盘细胞外基质成分改变。
背景骨-肌腱结合部(Bone-Tendon Junction, BTJ)损伤是一种常见的疾病。目前对于肩袖损伤后的BTJ损伤修复机制尚未阐明,尤其在肌腱与骨愈合期间,任何过于激进的康复都有可能导
<正> 为贯彻国家标准GB150—89《钢制压力容器》,着眼于提高我国化工、石油化工压力容器产品的制造质量,开展同行业之间技术交流,本文介绍了我厂容器生产中应用的CT—Ⅰ、CT
在移动互联网时代,用户行为画像,一直是商家趋之若鹜的精准营销手段。当前,基于用户的定位根据指纹库,加各种辅助修正算法后实现,然而,对于用户到底在室内还是室外还没有行之
背景:经皮注入聚甲基丙烯酸甲酯骨水泥(Polymethylmethacrylate,PMMA)行椎体成形术治疗骨质疏松性椎体压缩骨折能迅速缓解患者疼痛,临床效果良好。目的:评估单侧经皮注入PMMA行椎体
如何充分利用已有的教学手段,提高教学的有效性,是当前初中信息技术教育中的一项重要课题。作者结合自身教学经验,从五个方面入手,结合相关实例,阐述了初中信息技术有效教学