论文部分内容阅读
本论文主要研究内容为以下几个方面:
(1) 我们改进了传统的基于可辨识矩阵的属性约简算法,采用启发式搜索方法,利用属性在可辨识矩阵中的出现频率作为启发条件,来对决策表进行搜索进而获得约简属性,为了获得较优的约简,在算法中增加了反向删除策略,判断每个约简属性是否独立,直到不能删除为止,最终获得有效的最小约简。这种算法可以有效获得属性集的一个最小约简,而不是传统算法得到的一个约简的超集。
(2) 根据研究得到的新型属性约简算法,对影响围网渔业产量的4种不同类型海洋环境因子:海水温度因子(5个)、海面高度因子(2个)、海面风速因子(1个)和海水叶绿素浓度因子(1个)进行数据挖掘,以得到其中对围网渔业产量影响的核心因子集合。通过收集相应海洋环境因子,经过合适预处理后,得到度量一致,结构统一,赋予有效性的海洋数据集。由于属性约简算法对数据的特殊要求,需要将数值属性的概念层级提升,以获得合适的属性相等标准,故而根据面向属性归纳的思想,对数据集进行数据泛化操作,再利用新型属性约简算法,获得属性集的最小约简。
(3) 根据数据挖掘后的约简属性来建立回归模型,并通过获得的模型来验证属性约简算法获得的强影响因子。
(4) 在整个实验过程中,我们发现针对海洋环境因子数据,我们需要着力解决海洋数据的编码格式统一、度量统一、数据结构统一、可定制化和及时传输等问题,而这些问题随着引入RSS技术,可以得到有效的改善,事实上,USGS(U.S.Geological Survey)已经通过RSS技术来发布关于地震信息的数据了,并且取得了较好的效果。最后提出基于RSS的围网渔业自动化渔情预测软件框架,通过之前数据挖掘研究中书写的两个SQL存储过程结合RSS技术实现自动化的数据收集、数据泛化、约简属性提取,进而建立预测模型。
本文针对传统围网渔业渔情预测方法的缺点,首次综合多种类型海洋环境因子,采用数据挖掘技术中的面向属性归纳和新型属性约简方法,获得多种类型因子中的约简属性,即影响围网产量的强影响因子,进而通过构建回归预测模型进行验证,为渔情预测研究开辟了一条新的道路,也为以后的海洋数据研究工作做出一定的指导。