论文部分内容阅读
机器人辅助教育是指将机器人应用于教学过程,充分发挥机器人的实际操作和演示功能,并可与学生自然交互,积极适应学生个体需要的教学。作为教师的机器人既然“教”,自然就会涉及到与学生进行交互。学生所使用的语言是人类的自然语言,这就要求机器人能理解和生成自然语言来与学生交互。而自动分词又是自然语言处理最初的、最基本的、无法回避的一个技术环节,同时也是人们研究的一个热点问题。在书面汉语中,字与字、词与词是连写的,词在句中没有显式的标记。因此,理解汉语的首要任务就是把连续的汉字串分割成词的序列,即自动分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。作为汉语自然语言理解的基础,自动分词主要应用于信息检索、汉字处理、语音处理、内容识别与分析、自然语言理解等。目前学术界主要采用计算机自动分词来解决汉语分词。通过对汉语自动分词理论的研究,我们开发了一个自动分词系统,用来对机器人辅助打台球系统中所涉及到的词汇进行切分。首先,用Access数据库管理系统建立了一个领域词库,此词库是针对机器人辅助打台球这个特定的词汇环境的。词汇的收录遵循了一定的原则,通过第三方分词软件初步切分以及人工统计、人工修正,我们把词汇收录到词库中;其次,我们采用微软的Visual C++开发分词系统,并利用DAO数据库访问技术来访问我们建立的台球用词库。在这个过程当中,我们还解决了VC6不能访问Access2000数据库管理系统的问题;最后,由于台球这个特定领域的限制,词库中收录的词可能不是严格意义上的词,而是分词单位,所以我们采用最大匹配算法来进行汉语自动分词,并给出了自动分词流程图。本系统较其他通用分词系统而言,主要有两大特点:一是专用性,本系统是专门针对台球领域的词汇进行切分的:另一个是准确性高,由于专用性,所以词汇是有限的,不容易产生歧义。本系统的开发环境是Windows2000,所采用的工具是微软的Visual C++6. 0和Access2000。