论文部分内容阅读
随着机器学习与自然语言处理技术的快速发展,同时房价的快速增长成为当前社会的焦点问题,采用机器学习技术的房价趋势预测方法逐渐成为人们的研究热点。然而当前多数预测工作中,数据源主要采用金融领域相关客观指标数据,未能考虑人们主观因素对房价的影响。为此,本文尝试以新浪微博中个人发表的状态、回复等信息为基础数据,通过对基础数据进行分词、词性标注、主题建模、情感倾向识别等操作,提取了与房价趋势变化相关的各项主观倾向参数数据,建立了一个融合主观因素参数集的房价预测模型,并利用该模型设计并实现了一个房价趋势预测系统,提高了房价趋势预测的准确度。研究内容包括:(1)通过对网络广告中相关房产房源及周边信息进行人工汇总,确定面向房产领域主观态度信息的房产领域主题集合,并以主题的变化趋势与房价变化趋势间的相似性作为参数对实际房价变化的影响程度进行主题筛选,最终实现主观态度的提取。(2)针对分词过程中相关主题词汇无法正确识别的问题,通过将词汇与房产领域各相关主题中关键词的相似度作为词汇与各主题的相关程度对边界熵模型进行算法改进,并在此基础上引入条件随机场模型进行模型融合,实现了一种基于房产领域相关主题的微博文本分词方法。将该方法与现有分词进行对比测试,测试结果证明该方法更加快速、精确。(3)针对主题建模中相关主题识别能力差的问题,通过在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型中加入最大熵先验层筛选输入文本形成词干串序列,并引入Jaccard系数计算剩余单词相似矩阵,提出了一种面向房产领域的主题建模算法。将该算法与现有主题建模算法进行对比测试,测试结果证明该算法更加准确、高效。(4)针对微博内容不确定性强、内容杂糅的特点,通过模型选择、模型参数设计等方式设计了一个更适合微博内容的预测模型,并采用面向对象的设计思想,设计系统的总体框架,各个功能模块和相关类的设计,以B/S的网站架构为基础,采用JSP技术实现了整个预测系统。最后,通过选取近几年北京地区舆情情况及实际房价趋势变动情况,对本文提出的预测系统与其他现有房价趋势预测系统进行了对比测试。测试结果表明:本文的预测方法高效、全面,可自动化的完成基于主观因素的房价预测任务,且具有较高的预测准确度。