论文部分内容阅读
随着 Web2.0 的普及,在博客、论坛和商业网站中出现了大量包含丰富信息的用户评论,这些评论为用户分析提供了有价值的资料。由于发表评论的用户在注册时提供的用户信息可能是不真实的,从事用户分析的研究者无法从中获取真实的用户信息。鉴于性别能够确定用户身份,对用户分析有重要价值,本文从用户性别提取的角度出发,以有效利用网络用户评论数据和自动化提取可靠的用户性别为目标,提出了基于 POSG 模型的网络评论用户性别提取方法。因两性评论在词汇和句式上存在差异,该方法利用卡方值排名靠前的词类和 N-gram 模式体现两性评论的词汇和句式,通过分别计算两性熵权之和进行用户性别的自动提取。实验结果表明,词汇和句式均对性别提取有一定的影响,但是句式的影响占主导地位。本文提出的网络评论用户性别提取方法具有较高的查全率和查准率,能够较好地实现评论用户的性别提取。