藏文网页摘要自动生成系统的研究

来源 :青海民族大学 | 被引量 : 0次 | 上传用户:xianglongke2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,如何有效地组织和分析藏文信息,提高藏文信息领域获取信息的效率,成为满足藏文信息领域人们需求的关键问题,这使得藏文网页技术成为研究热点,其进步推动了相关技术的发展。藏文网页是为了达到特定用户或任务要求,从信息源中提取重要信息、生成精简版本的过程。目前,藏文网页的研究面临冗余信息、压缩比大和可读性差等问题。生成一篇好的文本,不但需要对文档进行深入地分析,还需要有效的处理文本句选择与排序。文本句的选择决定了最终文本的组成成分,文本句的排序决定了文本的可读性,这两者都直接影响生成文本的质量。  本研究主要内容包括:⑴设计藏文网页爬虫。设计并实现了一个能够从互联网上爬取藏文网页的网络爬虫工具。⑵藏文网页的预处理。设计出了能够识别藏文网页文本的净化工具,并重点研究了基于藏文词典、规则、最大概率法和格助词相结合的藏文网页文本自动分词方法。⑶藏文网页的生成算法研究。研究并提出一种有效的藏文句子加权方法,根据句子权重的计算,生成了藏文网页的初始文本,并对初始文本进行平滑处理,使句子能够连贯。⑷提出了有效的藏文网页提取方法。该算法对于藏文网页的提取具有较好的效率,在提取藏文网页时查准率和查全率都达到在80%以上,基本能够提取藏文网页文本的主要内容。
其他文献
近日,华夏和易方达两大基金公司的跨境指数ETF发售,将跨境指数基金推上风口浪尖。记者获悉,目前包括恒指、道琼斯指数、标普指数、纳斯达克指数等各主流指数已纷纷被各家公司预定。基金公司的跨境指数“圈地大战”正打的风生水起。  大基金公司角逐跨境ETF市场  此次,华夏基金推出恒生ETF,易方达推出恒生中国企业ETF(又称H股ETF)。这两只基金各有特点,易方达H股ETF的主要优势在于中国国企指数近几年