论文部分内容阅读
随着互联网时代的发展,如何有效地组织和分析藏文信息,提高藏文信息领域获取信息的效率,成为满足藏文信息领域人们需求的关键问题,这使得藏文网页技术成为研究热点,其进步推动了相关技术的发展。藏文网页是为了达到特定用户或任务要求,从信息源中提取重要信息、生成精简版本的过程。目前,藏文网页的研究面临冗余信息、压缩比大和可读性差等问题。生成一篇好的文本,不但需要对文档进行深入地分析,还需要有效的处理文本句选择与排序。文本句的选择决定了最终文本的组成成分,文本句的排序决定了文本的可读性,这两者都直接影响生成文本的质量。 本研究主要内容包括:⑴设计藏文网页爬虫。设计并实现了一个能够从互联网上爬取藏文网页的网络爬虫工具。⑵藏文网页的预处理。设计出了能够识别藏文网页文本的净化工具,并重点研究了基于藏文词典、规则、最大概率法和格助词相结合的藏文网页文本自动分词方法。⑶藏文网页的生成算法研究。研究并提出一种有效的藏文句子加权方法,根据句子权重的计算,生成了藏文网页的初始文本,并对初始文本进行平滑处理,使句子能够连贯。⑷提出了有效的藏文网页提取方法。该算法对于藏文网页的提取具有较好的效率,在提取藏文网页时查准率和查全率都达到在80%以上,基本能够提取藏文网页文本的主要内容。