网络评论用户性别提取方法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:laohe5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着 Web2.0 的普及,在博客、论坛和商业网站中出现了大量包含丰富信息的用户评论,这些评论为用户分析提供了有价值的资料。由于发表评论的用户在注册时提供的用户信息可能是不真实的,从事用户分析的研究者无法从中获取真实的用户信息。鉴于性别能够确定用户身份,对用户分析有重要价值,本文从用户性别提取的角度出发,以有效利用网络用户评论数据和自动化提取可靠的用户性别为目标,提出了基于 POSG 模型的网络评论用户性别提取方法。因两性评论在词汇和句式上存在差异,该方法利用卡方值排名靠前的词类和 N-gram 模式体现两性评论的词汇和句式,通过分别计算两性熵权之和进行用户性别的自动提取。实验结果表明,词汇和句式均对性别提取有一定的影响,但是句式的影响占主导地位。本文提出的网络评论用户性别提取方法具有较高的查全率和查准率,能够较好地实现评论用户的性别提取。
其他文献
在实现嵌入式系统的过程中,软硬件协同设计技术通常需要考虑在缩短上市时间的基础上满足各种设计约束。协同设计的一个关键要求是对系统模块进行一个有效的软硬件划分,在满足功
近年来,基于云计算的互联网服务不断涌现,其中MapReduce计算范式和HDFS分布式文件系统已逐渐成为开发大型数据密集型应用的首选模型。从硬件供应商的角度,这类应用部署的规模如
多频生物电阻抗成像技术(MFBEIT)依据各组织对激励信号频率敏感性不同的原理,在多个频率激励下测量生物体内的组织阻抗信息,通过分析组织阻抗分布图像区分不同的组织或同一组织
近年来,部队车辆的数目不断增多,管理的难度愈加增大。传统的管理方式实时性差、安全性低,不能满足管理人员对访客记录的实时查询需求,此外,由于所有的记录采用的都是纸质媒
随着互联网技术的迅猛发展,每天由网络产生的数据量越来越庞大。互联网企业面对这些浩繁的数据,常常陷入数据丰富而信息贫乏的尴尬境地。MapReduce是Google提出的一种用于大规
血压是人体基本的生命特征参数,也是临床上重要的监测要素之一。血压监测结果给诊断疾病、观察治疗效果以及预后判断提供了十分重要的依据。现今,在手术室、重症监护室等医疗
随着互联网应用的不断丰富,网络流量需求与网络带宽之间的矛盾日益增大,网络流量管理的作用显得尤为重要。在“尽力而为”的服务模型下,P2P文件传输等非关键流量消耗着大量的带
字符识别是模式识别的一个重要分支,它是一门研究如何利用计算机系统自动识别各种媒介上印刷的或手写的字符的技术。随着社会信息化进程不断提高,我们在日常工作中经常需要将大
  21世纪是一个数字化的时代,大量信息被采集、记录到企业各个信息系统中。这些被记录下来的业务流程数据由于相互隔离,很难为管理层提供运营分析和决策时的数据支持。商务智
近年来,在自然化、智能化的人机交互研究和情感智能领域已经取得令人瞩目的成果,其中一项关键的技术就是如何获取人的内心情感。表情是人们内心情感的重要表现形式,能够深刻地反