论文部分内容阅读
随着网络信息的迅猛增长,人们希望海量文本能被标记上合适的词标签,即用一个或几个词对文本内容进行描述,这样可以极大地加快人们的浏览速度。而且,好的标签对于提高文本分类、信息检索等自然语言处理任务的性能也具有极大的帮助。因此,出现了不少自动生成文本标签(标签推荐)的研究。与此同时,即时聊天、twitter、微博等各种方式的社会化网络迅猛增长,人们基于这些工具表达和交流他们的观点,这类数据与已有的网页文本有很大的差异,比如都具有一定的对话的特点、通常文本较短、结构松散(经常会有多人参与从而成为多方对话)。这些特点使得其标签的遴选存在更多的困难。目前直接针对这类文本的标签推荐研究还很少见,针对一般网页文本的标签推荐方法能否在这类数据上具有良好的性能仍然未知。本文关注于这类具有多方对话特性的短文本,就标签推荐、关联词挖掘及对话特点做了深入的研究,并提出了一种自动标签推荐方法。该方法首先在基于多项加权的框架下进行关键词抽取;再根据预先定义的POS模板序列进行过滤得到高频二元关键词;然后使用Apriori算法从大规模文本语料中挖掘出关联规则进行社会化标签拓展。最终,在同一度量标准下,从关键词、二元关键词和社会化标签中推荐top-n的标签。为此,本文的主要研究内容如下:1)对本文要处理的对话数据对象的关键特点进行了详细的分析。主要从对话格式、话语方式、话语风格、话语范围和话轮转换五个方面进行了阐述;2)针对对话数据的特点,在关键词抽取的研究中考虑对话者特征,并结合频率权重、句子权重以及位置权重,提出了基于多项加权的关键词抽取方法。进而根据预定义的POS模板序列进行过滤得到了二元关键词,在两类不同数据的比较评测实验中都表明了其有效性;3)将典型的关联规则挖掘算法-Apriori算法用于社会化标签拓展中,实验结果表明了其有效性;