论文部分内容阅读
传统的聚类算法仅从单一视角对数据进行分析,并且由于聚类分析缺乏带有语义的类标签,因此得到的聚类划分不具有可解释性。聚类划分的可解释性即聚类划分由决策规则推理得到,并且聚类划分可以被定性和定量地描述。多视角的和可解释的聚类划分将给决策者提供更多地选择空间,并且可以使决策者批判性、改善性和探索性地相信和使用聚类划分。本文针对聚类的多视角性和可解释性问题,提出多视角生成模型的可解释性聚类(Interpretable Clustering with Multi-view Generative model,ICMG)。ICMG能够生成多个视角,并且基于视角得到多个有效的和无冗余的聚类划分,最后通过视角的语义信息对聚类划分进行定性和定量地解释。本文完成的工作如下:(1)构建嵌入多视角因素的贝叶斯案例模型(Muti-view Bayesian Case Model,MBCM)。MBCM是将多视角因素引入到贝叶斯案例模型上的一个生成模型,MBCM可以生成含有多视角因素的数据。(2)构建多视角生成模型(Multi-view Generative Model,MGM)。MGM基于有效原则和无冗余原则使用贝叶斯程序学习(BPL)的组合思想和MBCM生成多个有效的无冗余视角,并使用原型和子空间描述视角。(3)提出多视角生成模型的可解释性聚类(ICMG)。ICMG首先使用MGM得到多个使用原型和子空间描述的视角;然后利用原型和子空间构建规则集,基于规则集进行聚类;最后使用原型和子空间所附带的语义信息定性和定量地解释聚类划分,进而得到有语义的类标签。本文使用多组数据集进行实验,实验结果表明ICMG能够得到多种可解释的聚类划分并且相比于传统聚类算法具有较明显的优势,同时通过聚类划分可解释性的验证实验表明ICMG得到的聚类划分比传统多视角聚类的聚类划分更易理解。