学前教育Web文档的特征提取研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:zhangcwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和通讯技术的飞速发展,Internet为学前教育提供了极为丰富的网页文档。这些文档大都是半结构化或无结构化的数据,要快速地从中获得所需信息非常困难。为了提高网页文档的利用效率,提高搜索的准确性,需要对海量的网页进行自动分类处理。网页文档的特征提取是自动分类的前提,文章研究网页文档的特征提取所涉及到的主要技术和方法。 文章的主要工作如下: 1.介绍特征提取的背景知识,包括文本自动分类过程,文本特征表示的模型,自动分类的概念以及分类算法。 2.阐释Web文档的预处理的过程和方法。在分析Web文档的基本结构的基础上。提出消除Web文档的噪音、过滤Web文档中的停用词的方法。 3.提出学前教育Web资源的特点及其分类体系。 4.分析Web文档特征项选择的评估函数和权重计算函数,提出基于HTML标记优化特征权重计算的方案。 5.在实验结果的基础上,认为在学前教育分类体系下,TF*IDF优于其他权重计算方法,基于HTML的特征加权算法可以优化分类器的分类效果。
其他文献
教学价值观是教师在其教学实践中所信奉和遵循的关于教育价值的准则,是决定教师教育行为的深层因素,指导着教师的教学方式、教学内容、教学过程等一系列内容。与当前关于教学价
古希腊哲学家亚里士多德说过,思维自惊奇和疑问始。提问,包括对自我和他人的提问,作为一种手段和方法,是人类探寻和获取知识的有效途径之一。提问,是问题发现的外在表现,是把