基于手机应用预测用户年龄性别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:gs212121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年来现代科学技术的快速进步和迅猛发展,智能手机的普及率和使用率不断的提高,人们在日常生活中对智能手机的依赖日益明显。与此同时随着APP数量的井喷式增长以及种类的日益多样化和生活化,人们往往会花费大量时间在智能手机APP上。用户选择APP的行为是由其特征决定的,由于隐私性的限制,使得直接收集用户信息变得愈发困难,所以依据用户的行为和习惯来判断用户的特性已经成为又一个新的研究领域和方向。大部分研究倾向于用分类方法对APP进行研究,但主要研究方向是有关移动用户的行为特征。此外,在对用户特征进行的预测分类中,使用的模型往往是单分类模型,越来越多的学者会充分利用集成学习,综合多种模型来研究如何解决分类的问题。本文基于Kaggle竞赛数据中一个有关移动用户APP使用情况的数据去建立一个移动用户的分类模型,主要内容包括数据的分析及说明、特征提取、特征筛选、降维、基模型的构建、Stacking融合模型的构建以及对模型结果的分析。本文利用对数损失这一指标衡量模型预测准确度,利用Q统计量度量各基模型之间的差异性,综合准确度和差异性两个方面,最终在SVM、XGBoost、LightGBM、随机森林、人工神经网络、k近邻、逻辑回归7个模型中选择了神经网络、随机森林、LightGBM、SVM作为融合模型的基模型,第二层的模型选择了逻辑回归,利用5折交叉验证对数据集进行训练,得到最终的结果。经过实证分析,对比单模型和集成学习(XGBoost、LightGBM、随机森林)来看本文建立的Stacking融合模型准确度更高。
其他文献
我国是聚烯烃产品消耗大国,对于高品质聚烯烃的需求在逐年增长,而催化剂决定了聚烯烃的性能,因此开发新型高性能烯烃聚合催化剂至关重要。为了结合水杨醛亚胺型三齿配合物与双核、多核配合物的优点,我们设计合成了一系列水杨醛亚胺型三齿双核钛配合物3a-3d和多核钛配合物13a-13c,并对其催化性能进行研究,主要工作内容如下:(1)合成了一系列新型的烷基桥联水杨醛亚胺型双核钛配合物3a-3d,通过核磁共振氢谱
人类圈是地球表层系统的重要组成部分,人类活动深刻地改变地表自然环境和大气成分。因而,获取精细的人口空间分布格局对研究人类活动驱动的历史土地利用/覆被变化和气候环境演变具有十分重要的意义。本文首先采用地理探测器,遴选影响人口分布的主要环境因子,在此基础上,采用逐步多元回归模型和随机森林回归模型,构建了以环境因子为自变量的人口密度预报模型。并对模型的精度和稳定性进行了检验,进而优选模型,以史料考证的历
随着量子力学的发展,量子信息学理论开始崛起,这个学科中囊括了数学,信息学,物理学,计算机科学等学科为一体,最近掀起一片研究热潮。量子信息理论中不仅发展了理论基础,以理
开发可持续且清洁的新能源是解决当今社会对化石能源的过渡依赖导致能源短缺以及环境污染问题的首要途径。光催化制取氢气无疑是解决上述问题的最理想的手段。共价有机框架(CO
钛合金凭借其优异的力学性能与功能特性,在航空航天、石油化工、生物医疗、海洋工程等领域具有广泛而成熟的应用,但表面性能差的缺点限制了其更深层次的应用。Ni-Al基金属间
非线性分数阶Cable方程是神经元动力学最基本的方程之一.本文研究了非线性分数阶Cable方程的数值解,考虑了神经元系统中离子运动中的反常扩散.首先在时间方向上,向后欧拉差分
川中侏罗系凉高山组是四川盆地主要产油层系之一,多口井在凉高山组见到良好的油气显示,具有较好的勘探前景和巨大的开发潜力。论文以川中地区公山庙油田公39井区侏罗系凉高山
准一维纳米材料由于其在纳米技术方面的潜在应用受到广泛关注。随着集成电路的蓬勃发展,硅扮演着重要的角色,人们相信它将成为信息时代的基石。利用密度泛函理论(density func
在航天工业快速发展的背景下,航天产品生产企业的生产安全状态良好与否显得非常重要。本研究依托中国航天科工集团某研究院的重点科研课题,旨在找到一种可以量化表达航天企业生产安全状态优劣的监管工具,基于系统安全的基本思想,将航天产品生产企业看作一个整体,引入生产安全度的概念,生产安全度是衡量企业生产安全发展态势的工具,通过筛选出影响企业生产安全态势的关键指标,并且对指标进行合理赋值、量化处理,得到能够表明
随着互联网信息的爆炸式增长,如何帮助人们快速地从海量的非结构化文本数据中发现知识及理解这些数据,同时将这些文本表示成计算机能够“理解”的形式,以减轻人的学习成本已