【摘 要】
:
随着以WEB2.0为代表的互联网技术的飞速发展,互联网文本非结构化和高自由度的特点为文本分类带来了新的挑战,其中包括不平衡文本分类问题。不平衡文本指的是类别间样本数目存
论文部分内容阅读
随着以WEB2.0为代表的互联网技术的飞速发展,互联网文本非结构化和高自由度的特点为文本分类带来了新的挑战,其中包括不平衡文本分类问题。不平衡文本指的是类别间样本数目存在显著差异的文本空间。传统的文本分类方法在处理不平衡文本分类问题时会出现显著的性能下降,尤其是其中少数类的分类性能会随着文本倾斜程度的加重而迅速恶化。而在“非法网页识别”、“垃圾邮件识别”等典型的不平衡文本分类应用中,对于少数类成员的预测和判定反而更加具有意义。本文针对不平衡文本分类性能下降,尤其是其中少数类分类困难的问题,在对常用的不平衡文本分类进行研究的基础上主要完成了以下工作:第一、提出了一种基于同义词扩展的不平衡文本分类算法。该方法是一种基于数据层面的少数集补偿方法。不同于传统的过采样方法,该方法通过同义词矢量概念的引入,实现了文本特征空间聚簇表示;并从同义词使用的语言学特性和统计学规律出发,通过少数集同义词矢量和实际同义词矢量间的关系进行特征预测和补偿。实验结果证明,该方法可以有效提升不平衡文本分类性能。第二、设计了一套以“哈工大同义词词林”为蓝本的同义词词典重构方法,该方法构建出的同义词词典不仅具有语境特征,同时实现了对词典维度的精确控制。第三、针对同义词扩展过程中的判决需求,提出了“左侧扩展”和“特征预训练”的概念,解决了扩展执行的边界界定问题。第四、设计并实现了一个具不平衡文本处理能力,同时又可以进行常规文本分类的统一系统。系统提供了对多种特征选择方法和多种分类算法的支持,用户可以通过集中式配置,快速制定系统分类策略。
其他文献
<正> 出版经纪人(literary agents),也叫作家经纪人,最早于1875年在英国出现。第一位专业出版经纪人是华特(A.P.Watt,1834—1914),他代理英国和爱尔兰作家的作品,现在华特公
仔猪水肿病是仔猪在断奶前后最易感染的一种传染病,其发病率和死亡率都很高,严重阻碍了养猪业的健康发展。本文就仔猪水肿病的病原、发病症状及其防治进行了介绍。
对于化学需氧量COD监测来说,其有三种监测方法:重铬酸钾法、快速消解分光光度法、快速回流消解-滴定法,本文针对这三种方法进行分析对比发现,他们测定值具有真实性,但是各自
本文从美学角度对唐代诗人李商隐的诗歌意境的主要特征及形成原因进行了分析。具体从“悲凄之美”、“曲折之美”、“迷离之美”三个方面论述了李商隐诗歌朦胧凄迷的美学特征
目的探讨肝脂酶基因(LIPC)启动子区-250位点G/A多态性对健康青年血脂及载脂蛋白水平的影响及其在高糖低脂(HC/LF)膳食诱导后的血脂及载脂蛋白水平变化中的作用。方法给予56例
小微企业融资难是世界性难题,各国研究机构多年来在着力解决小微企业融资难题方面做了大量的研究工作。在我国,小微企业融资同样存在"麦克米伦缺陷",甚至更为严重。新常态下,
:梁启超将“性善论”与阳明“心学”结合 ,提出了“致良知”的道德修养论。他对王阳明“知行合一”的观点进行了新的解释。章太炎则将“性恶论”、进化论和佛教法相唯识宗的
在托妮·莫里森的三部小说《最蓝的眼睛》《宠儿》和《天堂》中,作者对所塑造的人物形象身上具有的精神生态危机做出了双向度的深入透视和展示,并深刻地揭示出其中独特的思想
<正> 本发明属于船舶甲板铰缆机械的自动排缆装置在已有技术中,船舶深水锚机、绞缆机,起货机、绞网机的排缆(或网、绳)装置有手动齿轮条式,销钉式、链条式和双向
<正> 在经济全球化和信息化的国际大趋势下,科技实力和科技水平将越来越成为市场竞争的决定性因素。面对严峻的国际竞争环境,各主要造船国家都在采取各种措施加快船舶科技发