基于变分贝叶斯的在线回归及新类识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sophia0d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
回归问题、分类问题和聚类问题是机器学习领域中的三类经典问题。现有的回归模型在处理回归问题时有一些弊端,而传统的分类算法和聚类算法在应对某些类别划分的相关问题时又有些不足,因此本文针对上述两种问题提出了一些解决方案,并经过实验验证了方案的可靠性。  解决回归问题一个比较有效的模型是支持向量回归模型,其使用少量样本(支持向量)训练模型,速度较快且泛化性能较好。然而,传统的支持向量回归算法需要人工指定平衡经验误差与模型复杂度的正则参数,而且对于模型的每个参数均估计为固定的一个值(“点估计”)。这样导致了两个问题:1.如果正则参数指定不合理,那么结果会受很大影响。可以通过交叉验证的方式寻找合适的正则参数,但又非常耗时;2.“点估计”使得当数据集的样本数目比较少或噪声比较多时,得到的模型容易过拟合,尤其对于在线场景,噪声的影响更加严重。因此,本文提出了一种基于贝叶斯的支持向量回归模型来回避上述两个问题。该模型引入了伪似然和数据扩充的思想,在扩充的数据空间进行变分推断,并且被扩展到在线学习的场景。在一系列基准数据集以及实际的交通事故率预测数据集上的实验表明了本文提出的模型比其他的模型在预测准确性与速度上更具有优势。  传统的分类问题有很多成熟的模型。然而,实际生活中聚类问题往往更常见。即便是对于分类问题,由于完整的数据难以搜集、人工标注成本高,有些时候测试数据中可能包含一些训练数据中并未出现过的新的类别的数据。这种情况下,传统分类模型无法识别新数据中的未知类别,而传统的聚类模型又无法充分利用已知类别的监督信息。为了解决这类问题,本文提出了一种基于变分贝叶斯的分类聚类协同算法,该算法不仅能够有效地利用已知类别的监督信息,同时也可以将未知类别的数据中有价值的隐含信息挖掘出来进行聚类,分类与聚类被融合到同一过程中进行。为了使分类聚类的结果更加准确,本文融入了一个同样基于变分贝叶斯的深度学习模型。使用深度学习模型学到的数据特征比原始的数据特征更有价值且更低维,这样会加快分类聚类的过程;同时,我们也改进了深度学习模型,使用分类聚类的结果指导深度学习模型学习特征,从而使特征对于不同的类别更加有区分性。基于不同数据集进行的实验表明本文提出的模型比传统的分类模型与聚类模型更擅长解决新类识别的问题。
其他文献
本文分析了间接访问者所采用的两种方式:通过代理的访问和通过登陆链的访问。并在原有课题工作的基础上,提出了一套全新的网络访问事件追踪系统。为了获得高度的可扩展性,本文的
SSL/TLS协议作为加密网络通信的标准,对于保障信息系统的安全有着十分重要的作用。然而,由于SSL/TLS协议的复杂性和灵活性,使得Web网站在实现和部署SSL/TLS协议时,很容易出现代码
云计算技术的逐步成熟催生了一系列典型的应用场景,云桌面是其中最重要的应用场景之一。在云桌面场景中,用户的桌面系统在云端集中管理,运维成本大大降低,用户数据的安全性更容易
安全保密是作战指挥自动化系统(即电子信息系统,或C4ISR)的生命线.该文以CISR系统为背景,在综合课题组以前研究电子信息系统安全体系结构的通用模型的基础上,描述对由大型的
该论文是结合作者主持的气象业务课题完成的.首先对项目中使用的各种技术给予介绍,包括广域网技术、局域网技术、群机技术、数据库技术,大块拷贝(bulkcopy)技术,各种开发编程
为了更好的满足客户需求,使辽宁客户能够方便的通过拨打电话、手机等通讯工具进行该省内的个人养老保险和医疗保险等相关信息查询,经辽宁社保局同意,开发了辽宁省社保局中心
随着机群系统的飞速发展,机群通信网络规模不断扩大,复杂性也不断增加,研究机群通信监控系统对保证通信系统的健壮运行和系统软件的调试和性能优化都具有重要的意义。本文从
本文讨论的是关于P2P环境下如何实现B2B电子商务注册机制的问题。本文首先分析了集中式环境下的B2B电子商务注册标准(如ebXML、UDDI)的优势和不足之处,接着讨论了P2P网络及其特
传统的串行通信方式能够实现点对点的数据传输,但在通信距离和传输速度上都有限制.随着设备网络化及普适计算模式的形成,许多带有传统串行接口的设备产生了Internet接入的需
本文对于电子货币研究的内容是:* 分析总结现有电子货币协议的特点和成果。系统阐述了当前研究的现状和研究中存在的问题,发展趋势和展望。* 在考虑了匿名性、效率、可用性、安