论文部分内容阅读
伴随着互联网技术的进一步普及,国民信息技术应用能力作为发展的重难点而被特别强调,提高国民信息技术能力是教育技术学科建设的重点之一。Flash动画作为一种集文本、图形、图像、声音、视频、动画于一身的多媒体载体,凭借其制作简单、矢量格式放大不失真、体积小、交互丰富等特点日渐得到广泛的应用。Flash动画资源日益重要,但是获取Flash动画资源的检索研究还相对滞后。数据显示关键词检索的方式依然是互联网用户检索资源时使用的主要的手段。当前的Flash动画资源关键词检索是指针对资源所在网页进行分析,提取网页中的相关文本,分析得到的文本建立文本索引,这种方法有着明显的缺陷,主要是由于网页中的相关文本并不能很好的描述Flash动画的内容,造成了检索中的诸多问题。本研究立题网络Flash资源文本信息提取,主要研究内容为: Flash动画文件的结构和形成运作方式; Flash动画内部的文本信息的存在形式;Flash动画内部文本信息提取方法;Flash动画内部的文本信息的中文分词技术;设计相应的数据库收录分析得到的关键词形成索引。首先,充分研究了网络Flash动画文件中各类标签的结构内容和主要功能,通过研究标签了解Flash动画的运行方式和形成过程。网络中Flash动画文件的主要格式为SWF,是一种与XML文件结构相似的文件格式。Flash动画中所包含的各种媒体元素、视觉效果以及交互的实现都是依靠一套独立的二进制标签进行说明的。然后,研究Flash动画中文本信息分类并提出相应的提取方法。在充分分析Flash动画文件文本的定义方式、存储结构的基础上,依照其定义、结构、存储方式的的不同将Flash动画中的文本信息分为不同种类,即静态文本和动态文本、输入文本。又按照其定义的方式不同进一步细分为轮廓文本和设备文本,针对不同种类文本的存储特点找到不同的提取方式。接着,研究了Flash动画文本信息中文分词技术。在对中文分词技术进行大量研究工作之后,提出本研究的分词技术,将提取到的字符串在经历一系列的转码工作之后得到汉字字串,汉字字串通过基于词典、双向比较、词性标注统一的机械分词法进行分词处理,得到关键词之后对其进行进一步的过滤去重,以及划分处理。并将得到的关键词存储至设计好的索引数据库中。最后,研究检验系统的性能。以硕思精灵为标准参照,对七类Flash动画样本进行检验,从查全率和查准率两个纬度对系统的性能进行检验。本论文使用的开发工具为Visual C++6.0程序,在Windows XP操作系统环境中开发了Flash动画文本信息提取与标注平台程序模块,将Flash动画中的中文本信息提取出来进过分词等处理将结果存储至索引数据库中,为基于内容的Flash动画检索系统服务。