论文部分内容阅读
本文采用一种基于词的归类技术.在类别词专指度的计算中,考虑了类别词在语料中的频度、集中度和分布性等因素.根据HTML语言的标记特性,应用三维加权分类算法计算类别权值.采用Bayes公式变型,计算WWW中文信息文件归类可信度,并按可信度最大归类.对108篇试语料进行测试,封闭测试的归类正确率为98.1%,开放测试的正确率为83.3%.