论文部分内容阅读
摘 要:数据挖掘目标和挖掘工具的正确选择直接关系到挖掘效果的好坏。面对内部规律极端复杂的证券市场,指出了只有将数据挖掘技术与证券市场自身的特点结合起来才能发挥其巨大的作用;提出了必须为数据挖掘建立科学的、客观的目标,这些目标必须以证券市场自身的规律为基础,并根据证券市场的特点提出了一个数据挖掘模型。
关键词:数据挖掘;证券市场;方法
文章编号:978-7-80736-771-0(2010)02-173-03
一、问题的提出
在证券市场里,千千万万个持有资金数额大小不等、投资理念各异、投资方法多样的投资者面对上千只股票分别做出各自的决策,再加上各种政经信息、上市公司经营表现、市场传闻等等因素的影响作用,导致了金融证券市场是一个内部规律极端复杂、较难预测把握的大系统。要想在一个复杂的、每天都推陈出新的系统当中立于不败之地,只有用手中的方法、工具很好地表述这个市场,才能真正从本质上抓住运作规律。
一个市场可以从微观、中观和宏观的角度进行分析。现在比较成熟的分析方法主要有注重微观的技术分析方法和注重宏观的基本面分析方法。而证券市场不同于其它市场,其参与者众多,信息复杂,数据变化快。因此单从微观分析是很困难的,而宏观分析具有长期性,对近期的变化无法处理。中观分析既可以避免微观分析中的人被淹没在数据中,又可以避免宏观分析的不现实性。因此我们可以将每只股票作为整个证券市场的子系统来进行分析,充分利用数据挖掘等现代分析技术。
从证券市场的历史可以发现,无论经济环境如何变化,股市怎么变化,必定有那么一些鹤立鸡群的股票,它们按照自身的规律运行。股票运行的随机性特别强,数据量巨大,使得我们无法分析哪些是有效数据,哪些是无效数据。不同的人对同一组数据有不同的观点,人的主观性会改变数据的真实面目。因此我们必须依靠客观的工具进行分析。计算机携术和数据挖掘技术的发展使得我们有了这样强有力的工具。
二、数据挖掘目标和任务的确立
I. 传统证券分析系统的缺点
传统的技术分析系统的缺陷:传统的技术分析系统只能通过人为主观地设定技术参数,简单地显示技术形态,由人主观地或凭个人经验判断出入市的买卖机会,不仅存在技术参数取值的随意性、买卖信号的滞后性、技术形态研判的主观性,而且不具备模拟预测功能。传统的技术分析系统表面上是客观的而实际上是主观的。
当今在市面上大量流行的各种证券分析软件都有一个共同的特点,即使用各种分析指标为预测工具。比如:量线指标、K线指标、MACD指标、KD指标、OBV指标、RSI指标等。[1]但是根据这些指标的预测都是类似瞎子摸象的预测,只见树木,不见森林,使我们无法发现数据背后的本质。
2. 股市预测的科学思维方法
对投资者而言,人在预测过程之中怎样形成自己的思维方式呢?科学方法论的常识是:重视对信息的把握和对规律的认识;努力锻炼、勤于思考、善于总结,形成科学的思维习惯和方式:借助现代技术和手段增强自己认识事物和分析问题的能力。科学的预测方法应该包括以下几个基本原则:
(1)相关原则。建立在“分类”的思维高度,关注事物(类别)之间的关联性,当了解(或假设)到己知的某个事物发生变化,再推知另一个事物的变化趋势。
(2)惯性原则。任何事物发展具有一定的惯性,即在一定时间、一定条件下保持原来的趋势和状态,这也是大多数传统预测方法的理论基础,如“线性回归”等趋势外推法。这些原则在证券市场上非常适用。
(3)类推原则。这个原则也是建立在“分类”的思维高度,关注事物之间的关联性。证券市场经常出现板块之间的轮动,某一只股票带动所属板块,该板块又带动相关板块,最终诱发大盘启动。
(4)概率推断原则。我们不可能完全把握未来,但根据经验和历史,很多时候能大致预估一个事物发生的概率,根据这种可能性,采取对应措施。散户、大户和庄家投资博弈型决策都在不自觉地使用这个原则。
3. 经济理论给我们的提示
西方经济学根据竞争程度的不同而把市场结构分成完全竞争市场结构、完全垄断市场结构、垄断竞争市场结构和寡头垄断市场结构4种。纵观中国证券市场上千只股票的价格走势,都具有这4种市场结构的某些特点。完全垄断市场在证券市场上的表现就是坐庄,有的庄家拥有某只股票流通股的90%以上,这种股票的涨幅也相当惊人,这与完全垄断市场结构具有非常相似的特点;而有的股票的所谓散户行为与完全竞争市场结构的特点极其相似。经济学对市场的划分给了我们一个很好的启发,也帮助了我们对数据挖掘目标的确定。
4. 数据挖掘目标的确定
数据挖掘是昂贵的,它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建模、模型生成、结果分析等等。那么我们又如何确定我们所花费的时间、金钱和努力是否值得?这就让我们在实施数据挖掘以前必须明确数据挖掘的目标、任务和使用的挖掘工具,来确保挖掘的结果是我们预期的。
三、数据挖掘简介
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生的数据处理技术,是知识发现(Knowledge Discovery in Database)的关键步骤。
1.数据挖掘方法
数据挖掘的方法主要有关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等[2]。
(1)关联分析。关联规则挖掘是由Agrawal等人首先提出的。两个或两个以上L变量的取值之间存在某种规律性,就称为关联。关联分为简单关联、时序关联和因果关联。
(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
(5)时间序列模式。时间序列模式是指通过时间序列,搜索出重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照值之间的差别。
2.数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等[3]。
四、数据挖掘技术在证券市场分析中的应用
中国证券市场多年来的发展已经产生了大量的有用数据,股票走势的规律也越来越清晰。我们期望使用恰当的数据挖掘技术来对股票的运行规律进行研究。
数据挖掘的过程如下:
1. 确定要研究的问题
清晰地定义出要研究的问题,认清数据挖掘的目的是数据挖掘的重要一点。数据挖掘任务是:①以现有的具有明显趋势的股票为研究起点,找到与其具有共同特点的相似股票;②找到这些股票的价格、成交量等数据之间的相似性和关联性;③找到这些股票的传统技术分析指标(如:K线指标、MACD指标、KD指标、OBV指标、RSI指标等)之间的关联性;[4]④这些股票在关键价位所具有的共同特点;⑤应用时间序列方法进行趋势的预测和检验。
2.数据准备,收集有关的数据
需要收集的数据包括:日报行情信息,即日期、开盘价、最高价、最低价、收盘价、成交量;上市公司基本信息,即代码标识、代码、简称、行业、主营业务、区域、地域、上市时间、主承销商、上市推荐人等;时间信息,即日期标识、日期、季、月、日、星期等。
3.数据的预处理(清洗、提取、转换、加载)
(1)数据提取:从综合数据中取出当前需要的那部分数据。主要是代码、日期、开盘价、收盘价、最高价、最低价、涨跌幅等。
(2)数据清洗:通过数据清洗获取有效的数据。典型的数据清洗任务有数据验证和数据映射(使数据源的数据在进入数据库前,其数据属性具有统一的标准,比如字段名称、类型、长度都统一。
(3)数据转换:在数据清洗后存在一个数据整理和转换的过程,这一过程就是对数据进行变形,使之适应前端应用的需要。
4.数据挖掘算法的选择
(1)以现有的具有明显趋势的股票为标准应用分类和聚集挖掘方法,对上海和深圳股票市场的股票进行分类和聚集处理。
(2)应用关联分析方法找出具有相同趋势的股票在成交量和涨跌幅之间的相似性。
(3)应用关联分析方法对日报行情进行分析,发现单只股票自身价格、成交量和股票涨跌幅之间的关系。
(4)应用关联分析方法找到传统技术分析指标与股票走势之间的关联性。
(5)应用时间序列方法对股票走势进行修正和预测。
(6)应用神经网络方法对股票进行预测、仿真和检验。
(7)通过对大量数据的分析和挖掘后,使该系统具有自我学习的能力和对股票自动搜索、分类的能力。
以证券市场为研究对象,探讨了传统经济模型与数据挖掘技术相结合的方法,发挥了传统经济模型定性分析的优势和数据挖掘定量分析的优势,以获得更加准确的预测结果。随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使管理者具有更高的智能决策能力。
参考文献:
[1]Richard Roiger,Michael Geatz.数据挖掘教程[M]北京:清华大学出版社,2003.
[2]JiaweiHan.数据挖掘—概念与技术[M].北京:高等教育出版社,2004.
[3]高洪深.决策支持系统(Dss)理论、方法、案例(第3版)[M].北京:清华大学出版社,2004.
[4]黎话远,西方经济学[M].北京:高等教学出版社,2004.
关键词:数据挖掘;证券市场;方法
文章编号:978-7-80736-771-0(2010)02-173-03
一、问题的提出
在证券市场里,千千万万个持有资金数额大小不等、投资理念各异、投资方法多样的投资者面对上千只股票分别做出各自的决策,再加上各种政经信息、上市公司经营表现、市场传闻等等因素的影响作用,导致了金融证券市场是一个内部规律极端复杂、较难预测把握的大系统。要想在一个复杂的、每天都推陈出新的系统当中立于不败之地,只有用手中的方法、工具很好地表述这个市场,才能真正从本质上抓住运作规律。
一个市场可以从微观、中观和宏观的角度进行分析。现在比较成熟的分析方法主要有注重微观的技术分析方法和注重宏观的基本面分析方法。而证券市场不同于其它市场,其参与者众多,信息复杂,数据变化快。因此单从微观分析是很困难的,而宏观分析具有长期性,对近期的变化无法处理。中观分析既可以避免微观分析中的人被淹没在数据中,又可以避免宏观分析的不现实性。因此我们可以将每只股票作为整个证券市场的子系统来进行分析,充分利用数据挖掘等现代分析技术。
从证券市场的历史可以发现,无论经济环境如何变化,股市怎么变化,必定有那么一些鹤立鸡群的股票,它们按照自身的规律运行。股票运行的随机性特别强,数据量巨大,使得我们无法分析哪些是有效数据,哪些是无效数据。不同的人对同一组数据有不同的观点,人的主观性会改变数据的真实面目。因此我们必须依靠客观的工具进行分析。计算机携术和数据挖掘技术的发展使得我们有了这样强有力的工具。
二、数据挖掘目标和任务的确立
I. 传统证券分析系统的缺点
传统的技术分析系统的缺陷:传统的技术分析系统只能通过人为主观地设定技术参数,简单地显示技术形态,由人主观地或凭个人经验判断出入市的买卖机会,不仅存在技术参数取值的随意性、买卖信号的滞后性、技术形态研判的主观性,而且不具备模拟预测功能。传统的技术分析系统表面上是客观的而实际上是主观的。
当今在市面上大量流行的各种证券分析软件都有一个共同的特点,即使用各种分析指标为预测工具。比如:量线指标、K线指标、MACD指标、KD指标、OBV指标、RSI指标等。[1]但是根据这些指标的预测都是类似瞎子摸象的预测,只见树木,不见森林,使我们无法发现数据背后的本质。
2. 股市预测的科学思维方法
对投资者而言,人在预测过程之中怎样形成自己的思维方式呢?科学方法论的常识是:重视对信息的把握和对规律的认识;努力锻炼、勤于思考、善于总结,形成科学的思维习惯和方式:借助现代技术和手段增强自己认识事物和分析问题的能力。科学的预测方法应该包括以下几个基本原则:
(1)相关原则。建立在“分类”的思维高度,关注事物(类别)之间的关联性,当了解(或假设)到己知的某个事物发生变化,再推知另一个事物的变化趋势。
(2)惯性原则。任何事物发展具有一定的惯性,即在一定时间、一定条件下保持原来的趋势和状态,这也是大多数传统预测方法的理论基础,如“线性回归”等趋势外推法。这些原则在证券市场上非常适用。
(3)类推原则。这个原则也是建立在“分类”的思维高度,关注事物之间的关联性。证券市场经常出现板块之间的轮动,某一只股票带动所属板块,该板块又带动相关板块,最终诱发大盘启动。
(4)概率推断原则。我们不可能完全把握未来,但根据经验和历史,很多时候能大致预估一个事物发生的概率,根据这种可能性,采取对应措施。散户、大户和庄家投资博弈型决策都在不自觉地使用这个原则。
3. 经济理论给我们的提示
西方经济学根据竞争程度的不同而把市场结构分成完全竞争市场结构、完全垄断市场结构、垄断竞争市场结构和寡头垄断市场结构4种。纵观中国证券市场上千只股票的价格走势,都具有这4种市场结构的某些特点。完全垄断市场在证券市场上的表现就是坐庄,有的庄家拥有某只股票流通股的90%以上,这种股票的涨幅也相当惊人,这与完全垄断市场结构具有非常相似的特点;而有的股票的所谓散户行为与完全竞争市场结构的特点极其相似。经济学对市场的划分给了我们一个很好的启发,也帮助了我们对数据挖掘目标的确定。
4. 数据挖掘目标的确定
数据挖掘是昂贵的,它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建模、模型生成、结果分析等等。那么我们又如何确定我们所花费的时间、金钱和努力是否值得?这就让我们在实施数据挖掘以前必须明确数据挖掘的目标、任务和使用的挖掘工具,来确保挖掘的结果是我们预期的。
三、数据挖掘简介
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生的数据处理技术,是知识发现(Knowledge Discovery in Database)的关键步骤。
1.数据挖掘方法
数据挖掘的方法主要有关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等[2]。
(1)关联分析。关联规则挖掘是由Agrawal等人首先提出的。两个或两个以上L变量的取值之间存在某种规律性,就称为关联。关联分为简单关联、时序关联和因果关联。
(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
(5)时间序列模式。时间序列模式是指通过时间序列,搜索出重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照值之间的差别。
2.数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等[3]。
四、数据挖掘技术在证券市场分析中的应用
中国证券市场多年来的发展已经产生了大量的有用数据,股票走势的规律也越来越清晰。我们期望使用恰当的数据挖掘技术来对股票的运行规律进行研究。
数据挖掘的过程如下:
1. 确定要研究的问题
清晰地定义出要研究的问题,认清数据挖掘的目的是数据挖掘的重要一点。数据挖掘任务是:①以现有的具有明显趋势的股票为研究起点,找到与其具有共同特点的相似股票;②找到这些股票的价格、成交量等数据之间的相似性和关联性;③找到这些股票的传统技术分析指标(如:K线指标、MACD指标、KD指标、OBV指标、RSI指标等)之间的关联性;[4]④这些股票在关键价位所具有的共同特点;⑤应用时间序列方法进行趋势的预测和检验。
2.数据准备,收集有关的数据
需要收集的数据包括:日报行情信息,即日期、开盘价、最高价、最低价、收盘价、成交量;上市公司基本信息,即代码标识、代码、简称、行业、主营业务、区域、地域、上市时间、主承销商、上市推荐人等;时间信息,即日期标识、日期、季、月、日、星期等。
3.数据的预处理(清洗、提取、转换、加载)
(1)数据提取:从综合数据中取出当前需要的那部分数据。主要是代码、日期、开盘价、收盘价、最高价、最低价、涨跌幅等。
(2)数据清洗:通过数据清洗获取有效的数据。典型的数据清洗任务有数据验证和数据映射(使数据源的数据在进入数据库前,其数据属性具有统一的标准,比如字段名称、类型、长度都统一。
(3)数据转换:在数据清洗后存在一个数据整理和转换的过程,这一过程就是对数据进行变形,使之适应前端应用的需要。
4.数据挖掘算法的选择
(1)以现有的具有明显趋势的股票为标准应用分类和聚集挖掘方法,对上海和深圳股票市场的股票进行分类和聚集处理。
(2)应用关联分析方法找出具有相同趋势的股票在成交量和涨跌幅之间的相似性。
(3)应用关联分析方法对日报行情进行分析,发现单只股票自身价格、成交量和股票涨跌幅之间的关系。
(4)应用关联分析方法找到传统技术分析指标与股票走势之间的关联性。
(5)应用时间序列方法对股票走势进行修正和预测。
(6)应用神经网络方法对股票进行预测、仿真和检验。
(7)通过对大量数据的分析和挖掘后,使该系统具有自我学习的能力和对股票自动搜索、分类的能力。
以证券市场为研究对象,探讨了传统经济模型与数据挖掘技术相结合的方法,发挥了传统经济模型定性分析的优势和数据挖掘定量分析的优势,以获得更加准确的预测结果。随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使管理者具有更高的智能决策能力。
参考文献:
[1]Richard Roiger,Michael Geatz.数据挖掘教程[M]北京:清华大学出版社,2003.
[2]JiaweiHan.数据挖掘—概念与技术[M].北京:高等教育出版社,2004.
[3]高洪深.决策支持系统(Dss)理论、方法、案例(第3版)[M].北京:清华大学出版社,2004.
[4]黎话远,西方经济学[M].北京:高等教学出版社,2004.