论文部分内容阅读
随着电影技术的提升以及市场化的运作加快,越来越多的电影投资者加入这个行业,这也促使了中国电影票房的飞速增长。但电影投资却是一项昂贵而又冒险的尝试。纵观整个票房的分布,却是及其少量高票房电影拉动了整个电影票房的增长,飞涨的票房收入掩盖了绝大多数电影亏损的事实。因此亟需一个有效的电影投资决策系统来辅助投资者,确保投资回报率。在电影拍摄前期,其预测难度较大,因为数据本身是病态的,同一个导演可能拍出“大片”,也可能拍出“烂片”,同理,演员亦是如此,因此电影拍摄前期票房预测难度极大。相关研究也较少,更多的是关于电影制作完成后上映前的票房预测,或是电影上映一周后的票房预测,利用首票房数据预测电影票房的准确率最高,达到了90%以上,但对于前期投资者来说,并没有太多参考价值。在本文中,提出了一种基于模糊线性回归的方法,使用电影开拍之前导演、演员、类型以及发行地区等基本信息,结合2011年至2015年间的历史票房数据,对2016年的电影进行票房预测分析。在对电影基本信息进行量化时,考虑了导演与演员的影响力随时间的衰减因素,利用导演和演员参与的所有累计电影票房表示其影响力,并进行相应的归一量化处理。随后使用了EM和Kmeans聚类算法进行聚类分析,在每一个类别下分别进行模糊线性回归分析。由于电影拍摄前期票房预测误差大,平均相对百分误差不能很好地反映真实的预测情况,因此本文提出了一种基于相对百分误差累积概率分布函数的评估指标,将其与平均相对百分误差结合起来同时对算法进行性能评估。实验对比了采用模糊性最小化求解时,使用三角模糊数和正态模糊数的预测效果,发现其预测区间中值相同,当置信水平h相同时,使用正态模糊数求得的区间更窄,模糊性更小。在使用正态模糊数的情况下,对比了采用模糊性最小化求解方法与采用最小二乘法求解时预测效果。实验对比发现,使用正态模糊数采用最小二乘法求解时,相对百分误差在50%以内的样本所占的比例更高,整体预测误差更小,对于训练集的拟合程度更高。当考虑通货膨胀的影响,调整权值模型后,其预测效果均有了较好提升。整体而言,模糊线性回归算法和BP神经网络算法均在预测首周票房时误差最小,预测第三周票房时误差最大。使用两种不同模糊数的模糊线性回归的方法均比BP神经网络的方法拥有更好的稳定性、更快的运行速度以及更低的误差。因此采用基于模糊线性回归的票房预测模型有更好的实际指导意义。