藏文网页摘要自动生成系统的研究

论文部分内容阅读

随着互联网时代的发展，如何有效地组织和分析藏文信息，提高藏文信息领域获取信息的效率，成为满足藏文信息领域人们需求的关键问题，这使得藏文网页技术成为研究热点，其进步推动了相关技术的发展。藏文网页是为了达到特定用户或任务要求，从信息源中提取重要信息、生成精简版本的过程。目前，藏文网页的研究面临冗余信息、压缩比大和可读性差等问题。生成一篇好的文本，不但需要对文档进行深入地分析，还需要有效的处理文本句选择与排序。文本句的选择决定了最终文本的组成成分，文本句的排序决定了文本的可读性，这两者都直接影响生成文本的质量。　　本研究主要内容包括：⑴设计藏文网页爬虫。设计并实现了一个能够从互联网上爬取藏文网页的网络爬虫工具。⑵藏文网页的预处理。设计出了能够识别藏文网页文本的净化工具，并重点研究了基于藏文词典、规则、最大概率法和格助词相结合的藏文网页文本自动分词方法。⑶藏文网页的生成算法研究。研究并提出一种有效的藏文句子加权方法，根据句子权重的计算，生成了藏文网页的初始文本，并对初始文本进行平滑处理，使句子能够连贯。⑷提出了有效的藏文网页提取方法。该算法对于藏文网页的提取具有较好的效率，在提取藏文网页时查准率和查全率都达到在80％以上，基本能够提取藏文网页文本的主要内容。

其他学术论文