缅文Web文本挖掘技术研究及实现

来源 :华侨大学 | 被引量 : 0次 | 上传用户:zjzzhength
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来缅甸国内计算机和网络的应用越来越普及,国内很多人都使用互联网获取信息。随着缅甸国内互联网的发展,应用缅文的网站也日益增加,网上存在的缅文信息量也不断的膨胀。如何从这些复杂的信息集合里面能够快速、有效的找到所需要的信息是目前缅甸国内正在面临的一个巨大的困难。由于国内经济科学发展较慢,很多技术都还没有达到成熟的阶段,还在发展的过程。国内对数据挖掘这一方面还没有进行过深入的研究,技术方面也还未成熟。所以对缅文文本挖掘方面带来了一种新的挑战。本文对缅文Web文本挖掘方面进行充分的研究。首先简述介绍了Web文本挖掘的研究背景、研究目的、研究意义以及国内外研究现状,分析了缅文语言的一些特征,以及它们对文本挖掘方面带来的一些难题。然后阐述了所提出来的缅文单字分割算法、缅文词干提取算法、缅文停用词、改进的缅文文本聚类算法等。我们分析了这些算法,把它们应用在缅文中,对缅文文本挖掘方面进行充分的研究。本文最后设计并实现了基于以上算法的缅文文献检索系统和缅文文本聚类系统。对缅文Web文本进行Html标签处理、缅文单字分割处理、提取词干、过滤停用词后使用向量空间模型作为文本的表示,使用Okapi相似度评测方法计算缅文文档与查询关键词之间的相关性。经过文献检索实验,测试结果表明所提出来的算法能够快速、有效的挖掘Web上的HTML文档。经过文本聚类的实验,测试结果表明改进后的聚类算法在稳定性、精确性和可靠性方面都有较大的改善和提高。
其他文献
语文课程标准》中指出:“让学生具有独立阅读的能力,注重情感体验,有较丰富的积累,形成良好的语感。”语感是对语言文字的感知体会,语感水平是语文素养之一。在日益频繁的交往中,人
生物是一门自然学科,初中生物教学内容丰富,由于初中生的年龄较小,生活阅历有限,对于一些生物知识不能做出正确的理解,如果教师采用传统的教学方式授课,不利于课堂教学效率的提高。
“高效教学”即高效率、高效益、高效果的教学。课堂教学高效性是指在常态的课堂教学中,通过教师的引领和学生积极主动的学习思维过程,在单位时间内高效率、高质量地完成教学任
实验教学是工科专业教学的重要组成部分,通过实验有利于提高学生的工作兴趣,提升学生的操作技能,锻炼学生的独立思维和探究能力。合理安排实验可有效发挥实验作用。
目前,在小学语文识字教学中,仍然存在诸多的问题,像教师的教学方法落后,没有根据学生的实际需求进行识字教学,这些问题的存在对提升学生识字学习能力有一定的阻碍。
小学语文教学由于是追踪学生一系列升学的基石,故小学语文教师所应对的难题是语文教学如何让学生提升自身素质,促进学生全面发展。我们现在就以如何将小学语文课堂吸引学生兴趣
在数学领域里,计算是进行一切数学实践活动的重要技能。可有人认为,计算计算,算算而已,只要算对,不必探究;还有人认为,计算靠练,没什么思维含量。之所以出现这些误解的主要原因是对
新课程倡导培养学生自主合作探究的学习精神,在课堂教学中实施合作型学习是新课程目标之一。本文从合理安排好小组合作学习的对象、合理安排好小组合作学习的内容、熟练掌握小
学生评改作文是相对教师而言的,它包括学生自己独立修改自己所写的作文,或在教师指导下修改自己所写的作文。提倡培养学生评改作文能力,并不意味着减轻作文的负担,而是为了提
时光飞逝,转眼间已经在教育行业里工作三年了,三年的时间里我主要从事小学英语教学工作,工作中曾有过困惑和迷茫,但经过自己对教材和学生不断的研究,三年里也有了一定的收获及对小