基于BBS文本信息的中文自动分词系统的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:clhsmith001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,各种网络应用服务越来越多,BBS(Bullet in Boards System )的开设为广大网络用户开辟了自由发表言论的空间,但一些不健康的、反动的言论也给我们的社会和国家带来了负面影响。如何准确的从大量用户言论中有效的清除不文明及反动言论成为当前网络管理人员越来越关心的问题。传统的BBS管理方法随着所拥有信息量的急剧增大,不但显得滞后且效率低下,已很难适应时代的发展。数据挖掘正是为了解决传统分析方法的不足,针对大规模数据的分析处理而出现的。因此,如何应用数据挖掘技术来有效、快速地实现BBS的安全管理工作就成为各网站越来越关注的热点。目前针对BBS文档的鉴别与过滤还不成熟。由于BBS的特殊性,用于普通Web文档和电子邮件的鉴别技术在用于鉴别BBS文档时效果并不理想。研究对BBS文本内容进行数据挖掘,发现并自动删除不健康及反动言论,对网络管理有着非常重要的现实意义。在处理大量文档时,需要从大量文档数据中分析和提取有用信息,需要相关的工具完成不同文档的比较,以及文档重要性和相关性的排列,或找出多文档的模式或趋势。因此,文本挖掘就成为数据挖掘中一个日益流行而重要的研究课题。文本挖掘即文本数据库中的知识发现,它是数据挖掘的一个分支。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点。基于BBS的文本挖掘就是从BBS的内容或其描述中提取所需信息的过程,它在BBS的管理中扮演着越来越重要的角色。对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词是中文信息处理领域中的基础课题,也是一个难点问题。由于中文文本是按句连写的,词间无间隙,按句连写转换成按词连写,词的正确切分是进行中文文本处理的必要条件,它是一切工作的基础。本文的主要工作就是设计和实现一种快速分词算法,将BBS用户提交给服务器准备发送的内容截获并保存在文本文件中,并对这些文本文件进行分词处理,为下一步的文本分类及实现文本挖掘的要求和BBS的安全管理打下基础。本文采集登录BBS站点的每一用户基本信息( IP地址、用户名、信用等级
其他文献
随着Internet,VOD,IPTV等媒体传播方式的不断发展普及,数字媒体的获取和传播越来越容易,相应地其版权保护问题也日益突出。数字水印技术是对数字媒体提供版权保护的有效手段,人们
嵌入式系统以其精炼、专用、易扩充和可靠性高等特点,其应用领域可谓无处不在,而且有不断增长,扩展的前景。为适应嵌入式系统应用需求而产生、发展的嵌入式处理器ARM以其处理
学位
随着Web信息多元化趋势的增强,给所有用户提供同一个通用搜索引擎入口已经不能满足特定用户更加深入的查询需求。在这一情况下,面向特定主题领域的定题搜索引擎应运而生。定
随着存储空间的增大和存储价格的下降,即使是一个较小的P2P用户群也会共享大量的数据。大量的共享资源使得P2P系统吸引了大量的用户,但困难的是如何在大量的共享资源中寻找用户
我国是农业大国,长期以来受各种农业病虫害的侵害,尤其是果树类经济作物,生态抵御能力下降,严重影响了农业综合能力的提高。因此,加大农业预报预测的科技含量,建立对农业病虫害的有
中药指纹图谱技术广泛应用于中药的生产和研究活动中,尤其在质量控制方面,起着不可替代的作用。但是由于没有统一的标准,导致目前中药指纹图谱文档的格式五花八门,这些格式各
在移动对象数据库中,移动对象的k近邻查询问题一直是其中的研究热点。现存的许多k近邻查询方法都是基于欧几里得空间所做的研究,这些方法考虑的是两个对象在空间中的相对位置
通过对Linux平台下网络管理模型的深入分析和研究,发现目前的网络管理研究成果虽然打破了网络管理上最初的人工分散管理的局面,为网络管理的发展起到了推动作用,但是现有的网络
随着科技进步和计算机网络技术的飞速发展,信息产业及其应用得到了巨大发展。对网络需求的不断增强,网络用户面临着日益严重的安全问题,必须要求一个可信、可靠、安全、稳定的网