基于微博信息的北京地区房价趋势预测的关键技术研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:sun0603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习与自然语言处理技术的快速发展,同时房价的快速增长成为当前社会的焦点问题,采用机器学习技术的房价趋势预测方法逐渐成为人们的研究热点。然而当前多数预测工作中,数据源主要采用金融领域相关客观指标数据,未能考虑人们主观因素对房价的影响。为此,本文尝试以新浪微博中个人发表的状态、回复等信息为基础数据,通过对基础数据进行分词、词性标注、主题建模、情感倾向识别等操作,提取了与房价趋势变化相关的各项主观倾向参数数据,建立了一个融合主观因素参数集的房价预测模型,并利用该模型设计并实现了一个房价趋势预测系统,提高了房价趋势预测的准确度。研究内容包括:(1)通过对网络广告中相关房产房源及周边信息进行人工汇总,确定面向房产领域主观态度信息的房产领域主题集合,并以主题的变化趋势与房价变化趋势间的相似性作为参数对实际房价变化的影响程度进行主题筛选,最终实现主观态度的提取。(2)针对分词过程中相关主题词汇无法正确识别的问题,通过将词汇与房产领域各相关主题中关键词的相似度作为词汇与各主题的相关程度对边界熵模型进行算法改进,并在此基础上引入条件随机场模型进行模型融合,实现了一种基于房产领域相关主题的微博文本分词方法。将该方法与现有分词进行对比测试,测试结果证明该方法更加快速、精确。(3)针对主题建模中相关主题识别能力差的问题,通过在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型中加入最大熵先验层筛选输入文本形成词干串序列,并引入Jaccard系数计算剩余单词相似矩阵,提出了一种面向房产领域的主题建模算法。将该算法与现有主题建模算法进行对比测试,测试结果证明该算法更加准确、高效。(4)针对微博内容不确定性强、内容杂糅的特点,通过模型选择、模型参数设计等方式设计了一个更适合微博内容的预测模型,并采用面向对象的设计思想,设计系统的总体框架,各个功能模块和相关类的设计,以B/S的网站架构为基础,采用JSP技术实现了整个预测系统。最后,通过选取近几年北京地区舆情情况及实际房价趋势变动情况,对本文提出的预测系统与其他现有房价趋势预测系统进行了对比测试。测试结果表明:本文的预测方法高效、全面,可自动化的完成基于主观因素的房价预测任务,且具有较高的预测准确度。
其他文献
在模拟信号光纤通信系统中,链路的线性化程度和增益大小直接影响传输系统的性能,而这两种特性在很大程度上取决于链路中电信号调制和解调的方式.传统的传输方法是在发送端使
一、变量选择和数据处理  本文研究过程中主要采用两个经济指标:湖北省第三产业总产值(TP)和湖北省国内生产总值(GDP).分析的数据来自于《湖北统计年鉴》(2005).样本数据为1980-20
目的:观察针刀治疗臀上皮神经卡压综合征(SCNES)的临床疗效。方法:选取60例SCNES患者,随机分为治疗组和对照组,每组30例。对照组给予常规针刺治疗,每周治疗2次;治疗组给予针
随着量子计算机等计算设备的飞速发展,传统的加密技术正面临着挑战;由于物理层安全充分利用了无线信道的特性,其被认为是一种有效的解决方案。为此,提出了一种安全的混合网络模型,其中,端到端(device-to-device,D2D)网络覆盖于大规模多入多出(multiple-input multiple-output,MIMO)宏蜂窝之上,被动的恶意窃听者(eavesdropper,Eve)能够窃听所有
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着经济社会的快速发展,新闻媒体之间的竞争也日益激烈,尤其是在各种新兴媒体形式出现以后,传统的新闻媒体遭受着前所未有的挑战。而新闻播音工作在新闻媒体中扮演着重要的