高维数据挖掘在天体粗分类中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:gexuefeng1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
天体光谱蕴含着天体重要的物理信息,通过光谱的研究,人们可以定性或定量地测定天体的化学成分,直接或者间接地确定天体的表面温度,光度,直径,质量,研究天体的视向运动和自转。因此,光谱分析在天体和物理学中占有重要地位。LAMOST望远镜建成以后,每个观测夜都将产生上万条光谱。如何处理这些海量光谱从而及时获得所需的科学信息成为一项重要的议题。数据挖掘技术正在众多领域中得到广泛的应用,它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。运用数据挖掘技术可以实现相关性预测,分类,聚类,孤立点发现,时间序列分析等等功能,许多针对高维数据的挖掘算法也正成为研究的热点,光谱数据本身就是高维的,因此,面对海量的光谱数据,数据挖掘技术正好可以为解决光谱数据的分类,参数测量等工作提供很好的支持。按照LAMOST的科学目标,光谱数据的分类可以分为粗分类和细分类两大部分。其中粗分类是指首先将天体光谱分成正常天体和发射线天体,然后将正常天体分成正常星系和恒星,发射线天体分成星暴星系和活动星系核。本论文的主要工作针对天体粗分类展开,主要工作包括:1)研究了覆盖算法,总结该算法的特点并提出相应的改进。覆盖算法主要由下述两步构成:首先将分类问题转换成一个集覆盖问题,然后通过求解最小支撑覆盖集来完成分类。其中,论文中讨论的是基于类间最大距离算法。该算法是一种构造性算法,不涉及任何迭代计算,算法时间性能只取决于覆盖点的个数。论文指出根据覆盖算法的原理,随着覆盖半径的增大,将增加支撑覆盖集的支撑覆盖点个数;而当覆盖半径逐渐减小时,支撑覆盖集的支撑覆盖点个数将递增。覆盖半径的选择应根据实际情况灵活设置,多次试验取得最优值,从而使算法在精确度和速度上都取得较好实际效果。其次提出计算样本点之间的距离时应该采用对各特征向量加权的方法计算,这样进一步提高分类的准确性。2)按照数据挖掘的一般流程,对晚型星和类星体两类星体的分类构建了挖掘模型,采用图示的方式,抓取两类不同星体的特征,用规则对两类星体较好的进行了分类。分类算法简洁迅速。在系统实现过程中,开发平台采用了微软新推的.NET架构,开发语言是面向.NET的开发语言C#。系统主要包含预处理、谱线图示,分类训练几个模块。
其他文献
随着基于构件软件开发技术的迅猛发展,对构件的测试技术更显重要与迫切。 本文在介绍构件相关概念与软件测试,特别是基于构件的软件测试的基础上,讨论了基于构件的软件系统的
近年来Agent技术的不断发展,给很多应用领域带来了新的解决方案。借助于Agent的智能特性来模仿各种实体,可以保证安全完成任务。本文提出了一种基于多Agent系统的图书交易平台
学位
贝叶斯网模型是逻辑和概率结合的典型范例,论文以贝叶斯网模型的创始人Pearl所阐述的“贝叶斯网的一次推理过程就是对结论的一次论证过程”为论题,指出贝叶斯网模型的这种解
虚拟专用网(Virtual Private Network:VPN)的提出基于企业的需求。随着Internet业务的不断发展和完善,导致大量企业内部网络之间的信息交流。而过去企业要与外界或分散在全国乃
对脑电信号(Eletroencephalograph EEG)处理的目的就是为了从复杂的背景噪声中提取出隐含或微弱的脑电特征信号并应用于临床医学和脑认知科学的研究中。独立分量分析(Indepen
我国大陆海域辽阔,包含着丰富的能源和资源,由于陆地资源的逐渐减少,海洋资源在人类的生活中的重要性呈现出日趋上升的趋势。但是,随着人类对海洋的探索的深入和生活垃圾的任意排
Rough 集理论是近年来发展起来的一种有效的处理不精确、不确定、含糊信息的数学理论方法,在机器学习、数据挖掘、智能数据分析、控制算法获取等领域取得了很大的成功。 Ro
岩体与一般介质的重大差别在于它是结构面纵横切割而具有一定层次的多裂隙体。这些断层、节理、裂隙、弱面、夹层等构成的非均质各向异性和非连续的复合结构体,不仅影响岩体完
随着相关建设工程监理法规的建立,建设工程监理在保证建设工程质量和使用安全方面起着越来越重要的作用。利用计算机、网络技术实现监理信息化,可以提高监理水平、丰富监理手