基于CTCMC欺骗行为特征的抽取方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:abwyn12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络与计算机技术的不断进步,以计算机为媒介的通信(CMC)不仅改变了人们的日常生活,同时也为欺骗带来了新的场所和新的形式。从大量的电子数据中自动地检测和发现欺骗是一个意义重大的任务,而有效的欺骗特征对欺骗检测至关重要。欺骗是一种通过通信媒介发生的日常事件,因特网的发展显著地增加了个人和组织接收和存储的文本信息的数量。人们不仅需要过滤这些信息,而且需要判断这些信息是否是欺骗的。大量的通过CMC传递的文本信息反映出,人们不能成功并高效地检测出那些大量的可能是欺骗的信息。人们渴望制造出一个能自动地帮助人们检测出CMC中的欺骗信息的工具。而且研究表明三分之一的人际交往会涉及到欺骗,因此欺骗行为的特征抽取具有很重要的现实意义。此外,不断增长的网络信息使得欺骗信息也大量存在,对这些信息进行人工过滤和监视是不现实和低效的,所以自动地检测欺骗也是信息安全和信息化处理技术发展的必要要求,而欺骗行为的特征抽取又是进行欺骗检测的前提和基础。欺骗检测是一项很有前途,但也是很有挑战性的任务。本文在建立欺骗检测语料库的基础上,从现有的相关文献资料中抽取出一些被认为是有可能的线索,结合中文语料的自身特点,提出了线索假设,并在实验中进行验证,此外,在使用CHI统计方法进行特征项抽取后,使用贝叶斯和SVM模型对欺骗检测语料进行检测。主要研究内容有以下几个方面:1.采集用于欺骗检测的数据集,并根据欺骗的定义对采集的数据集进行区分,挑选出适合用于欺骗检测的数据集。2.从现有的相关文献资料中抽取出一些被认为是有可能的线索,在此基础上结合中文文本的特点提出新的线索假设,并对每个假设给出详细的量化表示,通过欺骗检测实验数据验证假设的真伪。3.文本特征的抽取。在对训练集文本进行分词等预处理之后,构成文本的词汇的数量是相当大,因此需要进行降维处理即抽取特征项,在本文中使用了互信息和CHI统计方法进行对比实验。4.文本的向量化表示。在抽取特征项之后,每个文本即可由所选取的对欺骗检测贡献较大的特征项来表示。文本进行向量化表示,可以方便使用检测模型对文本进行检测。5.在文本特征抽取和文本向量化的基础上,使用贝叶斯和SVM来训练模型并对测试语料进行检测,对实验结果进行分析。实验结果对假设的支持和我们的预期有些差距,但是真实新闻和欺骗新闻在一些语言特征上存在着显著的不同。另外,使用贝叶斯模型对测试语料进行检测的实验结果显示开放测试的精确率、召回率和F-值分别可达到52.174%,96%和0.67606。使用SVM模型检测的实验结果显示开放测试系统的精确率、召回率和F-值分别达到78.3%、72%和0.75。由此可见,SVM模型的检测结果要明显好于贝叶斯模型的检测结果。
其他文献