论文部分内容阅读
产品知识有助于企业创造和保持竞争优势。近年来,快速发展的社交媒体给消费者提供了积极参与的互动平台,产生了海量的用户生成内容(User-Generated Content),UGC中包含了消费者发布的产品使用经验和个人观点等信息,蕴含了大量的产品知识。这些知识对产品缺陷管理、产品市场营销和产品开发等方面具有重要价值。然而,UGC数据量庞大、信息种类繁多、非结构化等特点给企业分析UGC发现产品知识带来了困难和挑战。论文聚焦于社交媒体中存在的三种产品知识,分别是产品缺陷知识、产品竞争力知识和产品创新知识,并设计相应的知识发现框架,研究知识发现方法。在上述三类产品知识发现中,情感分析是判别和量化消费者情感态度的关键技术。因此,在研究三种产品知识发现方法前,需对领域特定的情感分析技术做深入的研究。因此,研究内容包括以下几个方面。(1)领域特定的情感词典构建方法为解决情感分析领域性问题,根据词语共现相似原则,研究基于点互信息(Pointwise Mutual Information,PMI)信息和词向量信息的领域特定情感词典构建方法。首先,通过专家标记的种子词典,分别基于PMI和词向量方法计算情感候选词与种子词的共现概率。通过线性回归方法结合PMI信息和词向量信息判别候选情感词的情感极性,并通过不断迭代生成领域特定情感词典。实验研究结果表明提出的领域特定的情感词典构建方法的有效性。(2)基于UGC的产品缺陷知识发现针对产品缺陷知识发现中存在的问题,设计基于UGC的产品缺陷知识发现框架,研究基于回复特征和多视图学习的产品缺陷UGC识别方法和基于词向量的产品属性描述一致化方法。首先,理论上分析UGC原文和回复的不同特点,抽取相应的特征并进行有效性分析。针对UGC特征高维性问题,采用多视图学习方法构建产品缺陷UGC识别模型。研究了基于特征自然属性和组合特征的视图生成方法,提高多视图学习方法的效果。为解决消费者在产品属性描述中用语不规范问题,研究了基于词向量的产品属性描述一致化方法。最后,通过聚类分析总结出现缺陷频率较高的产品属性,形成产品缺陷知识。实验研究使用了大量真实社交媒体数据,实验结果表明该方法的可行性和有效性。(3)基于UGC的产品竞争力知识发现针对产品竞争力知识发现中存在的问题,设计基于UGC的产品竞争力知识发现框架,研究了基于产品比较型UGC的竞争产品识别方法和基于消费者满意度的产品竞争力分析方法。首先,分析了产品比较型UGC的特点,抽取相应的特征。此外,为解决产品比较型UGC的稀疏性问题,使用不均衡数据分类算法构建产品比较型UGC识别模型。通过识别出的产品比较型UGC,抽取其中涉及的竞争产品。其次,使用领域特定的情感分析方法分析消费者的满意度、不满意度和综合满意度,通过对比发现产品的竞争优势和劣势。使用大量真实社交媒体数据进行实验研究,实验结果表明了该方法的可行性和有效性。(4)基于UGC的产品创新知识发现针对产品创新知识发现中存在的问题,设计了基于领先用户的产品创新知识发现框架,研究了基于SamplingBagging的领先用户需求UGC识别方法和基于文本摘要技术的产品创新知识发现方法。首先,分析领先用户及领先用户需求UGC的特点,抽取对应的特征。针对数据极度不均衡问题,将OverSampling和UnderSampling通过集成学习框架Bagging结合使用,克服单独使用这些方法存在的缺点。其次,使用文档摘要技术分析领先用户需求UGC,为企业提供简洁的产品创新知识。使用大量真实社交媒体数据进行实验研究,实验结果表明了该方法的可行性和有效性。基于UGC的产品知识能为企业管理人员在产品质量缺陷管理、市场竞争分析和产品创新与开发三个方面提供更加合理和科学的决策支持。论文分别研究了三种重要的产品知识发现方法,以及支持产品知识发现的领域特定的情感词典构建方法。有效解决了社交媒体环境下产品知识发现中存在的关键科学问题。