网络文本评论中产品特征抽取综述

来源 :现代情报 | 被引量 : 0次 | 上传用户:februaryliao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕随着Web2.0技术和电子商务的飞速发展,越来越多的用户通过互联网分享产品的使用体验和表达喜恶的观点,如何有效地从评论文本中抽取产品特征是产品意见挖掘方向所亟需解决的问题。本文从产品特征频繁项、特征-意见共现关系、模型训练和显隐式特征匹配四个方面介绍产品特征抽取工作在国内外的研究进展并指出其各自的优势和不足,最后列出产品特征抽取在今后的研究方向。
  〔关键词〕在线评论;意见挖掘;特征抽取;文本分析
  DOI:10.3969/j.issn.1008-0821.2016.08.031
  〔中图分类号〕TP3911〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0168-06
  〔Abstract〕With the rapid development of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.It is a challenge to extract product feature from customer reviews effectively in the product opinion mining field.Firstly,this paper introduced the research progress of extracting product feature from frequency,co-occurrence,modeling and implicit feature mapping both at home and abroad.Secondly,it presented their strength and limitation respectively.Finally,it enumerated some research interest about this task.
  〔Key words〕online review;opinion mining;feature extraction;text analysis
  近年来,随着Web20技术的发展,大量的在线产品评论文本不断涌现,对于有购买意向的潜在消费者来说,手工从产品评论中总结归纳出消费者对已购产品所持的褒贬态度是不现实的,尤其是意见相左的产品评论更让他们感到无所适从;对于生产厂家来说,从产品评论中了解消费者对产品整体或某一特征的意见,对企业竞争情报分析和后期产品质量的改进都大有裨益,因而对于评论中用户表达意见的研究具有重要意义。
  随着物质文化生活水平的提高,人们对消费品需求日趋多元化、个性化,他们不再满足于产品的整体性能优劣,而是根据个人的消费喜好来关注产品的某一部件或属性的性能,较多关注产品局部的评论内容,因此如何准确全面抽取评论文本中所蕴含的产品特征信息是研究者所面临的重要问题。本文站在技术实现的角度从四个方面综述文本评论中产品特征抽取技术在国内外的研究进展及各自的优势和不足,最后指出产品特征抽取技术所面临的挑战和今后的发展方向。
  1基于频繁项的特征抽取
  该方法通常对评论语料中出现频率较高的名词或名词短语应用约束条件而抽取出来作为产品特征。产品特征词通常由名词、形容词、副词或动词组成。Liu[1]认为60%~70%的产品特征词是显式名词,由于人们习惯在评论中经常使用,因此产品的部件或属性常由经常出现的这类名词表示,同时还需要对频繁出现的名词中的非产品特征词进行过滤。
  Hu[2]最先提出的基于特征摘要(Feature-based Summarization)算法。他首先将产品评论中频繁出现的名词短语作为候选种子词,然后通过密实度修剪(Compactness Pruning)去掉那些未按照指定顺序在一起出现的无意义词以及冗余修剪(Redundancy Pruning)去掉未能表示产品特征的单个词,比如手机产品评论中的“时间”一词,只有在“待机时间”或“通话时间”的名词短语中才表示手机产品属性,单独出现则毫无意义,所以就把它从候选种子词中去掉。随后Popescu[3]基于如下假设:共现的次数越多的两个词,则它们之间的关联度越高,因此Popescu提出点互信息(Point-wise Mutual Information,PMI)方法比Hu的算法提高了22%的准确率,但是召回率降低了3%。Ku[4]利用TF*IDF从文档和段落级别来判断某词对产品特征的重要程度,Scaffidi[5]也用此方法将频繁出现的名词短语候选项在评论语料中的出现频率与在一般性英文中的出现频率进行比较。Raju[6]等人同样在实验中丢弃所有那些相比在产品描述中更为频繁出现在一般性英文中的名词短语,然后将剩下的描述产品同一特征的名词短语进行聚类,该模型通过双连词重叠(Bigram Overlap)值来衡量名词短语间的相似性,最后只保留至少含3个名词短语的聚类簇。Long[7]等人基于出现频率和信息距离(Information Distance)的考虑来抽取名词短语,他们首先通过统计频率方式找到产品特征核心词,然后利用信息距离来查找与产品特征相关的其他词或短语,如“”和“Dollars”均是产品价格属性的核心词。Hao[8]提出的基于语言依存分析和语料库统计相结合的未登录产品特征项抽取算法,实验证明抽取的前200个产品属性中准确率达到875%。
  基于频繁项的产品特征抽取方式简单高效,许多商业机构通过这种方式分析客户对产品的反馈意见。但也导致了抽取过程中出现过多与产品特征无关的词汇同时漏掉那些不常出现的产品特征词。另外需要对各种阈值参数进行手工调整,因此移植性差。   2基于产品特征和意见的共现关系
  基于共现关系的产品特征项抽取前提是产品意见挖掘的主观陈述中,意见的表达总是针对具体的评论对象,而意见词在文本评论中是容易发现的[9]。
  Liu[10]实现的Opinion Observer系统针仅对句子级的用户评论内容使用监督模式发现算法进行意见挖掘后并可视化显示不同产品(3种品牌)中各个特征(显示屏、电池、扬声器等)的比较结果。首先通过词性标注器(NLProcessor Linguistic Parser)对训练集进行词性标注,然后手工识别产品特征项并用指定的词([Feature])取代,如:“超高的性价比”被标注为“超高的ADJ性价比NN”,其中ADJ和NN分别表示形容词和名词。接着用“[Feature]”替换掉“性价比”,结果变成“超高的ADJ[Feature]NN”形式,上述操作的依据是他认为用户在评论中的描述方式通常是以类似的语法形式出现,只是所用的特征项不同,所以需要词性标注和[Feature]替换作为寻找语法规则的桥梁。最后利用关联规则挖掘对上述的词性标注模式进行产品特征项抽取。实验结果表明该方法可使召回率和准确率分别达到902%和889%的效果。
  Baccianella[11]提出的层次性评级(Multi-facet Rating)方式抽取产品特征。首先通过预定义的3种POS模式抽取出意见短语(如:“nice room”、“horrible location”)作为候选项,然后充分利用General Inquirer[12]词典中情感词的极性、强度、词性等标签知识对候选项进行细粒度的标注,比如将“nice room”标注为“[Virtue][Positive]room”,将“horrible location”标注为“[Strong][Negative]location”。最后按照这些已标注过的候选项的区分度使用最小方差(Minimum Variance)进行计算打分完成产品特征的抽取,在对TripAdvisor网站爬取来的26 000条酒店评论实验中发现微观平均绝对误差(Micro Mean Absolute Error)降低了359%,宏观平均绝对误差降低了302%。
  利用产品特征项的句法结构来抽取匹配项的方式,对于意见评论句中出现的相似句法结构处理起来显得有些无能为力。针对该情况,Jiang[13]基于树核(Tree Kernel)函数提出在线产品评论的产品特征抽取和情感极性分类方法可以隐式利用句法结构的子结构(substructure)特点并计算出子结构间的相似性。
  Zhuang[14]通过应用依赖解析器来识别产品项之间的依赖关系和Du[15]利用产品特征项与情感词之间的关系达到抽取的目的。二人均首先考虑将所有的名词短语和形容词分别作为产品特征项和情感词,然后基于二者的共现关系建立对应的知识图,最后使用信息增强(Information Reinforcement)的图聚类算法来抽取与情感密切相关的产品特征项。随后Hai[16]也利用产品特征项和情感(aspect-sentiment)之间的共现矩阵挖掘出用来形成抽取新的产品-观点对的规则集。Qiu[17]也将依赖关系的思想应用到双传播方法中同时完成产品项和情感词的抽取任务。Shi[18]通过人工建立基于产品特征的概念模型再利用中文语义词典扩展的方式完成特征-意见对的抽取。
  基于产品特征和意见之间共现关系抽取产品特征项的优势在于能发现低频的产品特征项,不足之处是抽取出的匹配共现关系模式的短语项中部分不能表示产品特征。简言之,这类方法的召回率高,准确率低。
  也可将基于频繁项和基于共现关系的两种抽取方法结合使用,主要思想就是产品特征通常由频繁出现的名词表示并被情感词所修饰。因此常利用特征-情感关系对过滤掉非特征词。Li[19]等人首先从关于手机评论的中文文本中抽取出频繁出现的名词短语作为候选特征词,然后通过如下两步处理掉候选项中的噪音词,第一步使用形容词限制模式,如:ADJNN,其中ADJ表示形容词,NN表示名词短语;第二步利用信息检索(Information Retrieve)的词频(Term Frequency)计算,将那些在Web文本中出现频率高的常用词从候选项集中去掉,因为Li认为频繁出现的常用词表示产品特征的概率低。实验结果证明该算法优于仅使用自然语言处理产品特征的抽取技术并且具有领域适应性。Yu[20]利用领域知识(如产品说明书)将产品的所有特征以树状结构组织。该思路首先是从评论中抽取高频名词短语,然后对单分类支持向量机(One-class SVM)进行训练以识别候选特征项,接着利用特征项间的语义距离(Inter-aspect Semantic Distance)对候选特征项进行筛选。特征项间的语义距离一般由共现频率、上下文相似性和句法模式相似性等因素决定。最后通过递增式迭代将符合条件的特征项陆续加入到初始的树状结构中形成完整的层状产品特征树,对来自4个领域的11种产品的特征抽取实验证明了该算法的有效性。
  与前两种方法相比,组合方式的优势在于由于使用了更多的约束条件(如:频率阈值和关系模式)使得非产品特征词的数量大大减少,不足的地方是仍会抽取出低频的非产品特征词,同样也需要对各种训练参数进行手工调整。
  3基于训练模型的特征抽取
  上述3种方法的局限性在于需要人工干涉抽取算法中的各种参数,并且定制好的抽取规则难以移植到其他数据集中去,而自动从数据中学习训练参数的训练模型则能克服该局限性。
  31监督学习技术方式
  特征抽取通常看作是一般信息抽取的特例,那么信息抽取中所使用的监督学习算法仍适用于意见挖掘中对产品特征、观点词和观点极性的识别。已有基于监督学习技术的模型如隐马尔科夫模型[21](Hidden Markov Model)和条件随机域[22](Conditional Random Field),它们采用序列学习(Sequential Learning)方法,主要从标注的训练数据中推断出函数以应用到未标注的数据中去,是目前研究较多的两种模型。其中隐马尔科夫模型属于生成概率模型,它使用联合概率分布为观察序列从状态集合中选择具有最大可能性的状态序列过程。条件随机域属于判别式概率模型(Discriminative Probabilistic Model)它是在给定观察序列的条件下,计算整个观察序列状态标记的概率无向图学习模型。   Wong[23]结合隐马尔科夫模型提出的概率图模型对来自多个站点的数码相机、MP3播放器和液晶电视的产品特征进行联合抽取和分组。Jin[24]基于隐马尔科夫模型实现的OpinionMiner机器学习系统主要将词性标注信息与马尔科夫假设相结合,产生的每个词不仅由它前面的词决定并且也依赖于自身的词性标签。实验首先建立由产品特征项、正负观点词(包含显式和隐式)和背景词组成的标签集,然后利用该标签集手工标注训练文档,接着将该标注的文档通过自学习的方式抽取高置信度的特征项,最后应用基于HMM的模型用来抽取出所有产品特征和观点词。Li[25]采用Skip-CRF和Tree-CRF两种CRF变体结合方式完成产品特征项的抽取任务,该方式可利用文本评论中的句子结构并解决了传统CRF在学习过程中只能使用词序列的缺陷。其中Liu[10]和Choi[26]在实验中也用到条件随机域(CRF)模型,其中Choi通过标签、依赖关系、词距(Word Distance)和观点句使用序列模式挖掘技术形成一套序列模式规则来发现产品特征项和观点词。对于中文评论文本中产品特征项的抽取工作,Song[27]首先人工定义文本模式构成种子集合,再采用Bootstrapping算法从评论语句中抽取评价对象,然后将评价对象聚类为产品名称和产品特征两类,该方法取得较高召回率和准确率,但忽视了产品名称容易从产品评论网站的产品目录结构中获取的特点。Yao[28]利用本体知识建立汽车领域的产品特征集。Liu[29]提出意见实例抽取(opinion instance extraction)建立相关领域知识完成特征项和情感词同步抽取。
  监督学习方法可以自动从训练数据中学习模型参数,解决了前两种方法中需人工参与的问题,但是仍需要手工标注训练数据,不同的产品意见挖掘模型需要标注不同的训练集,耗时费力并难以适用所有产品的特征抽取任务,并且手机这类电子产品更新换代快,短时间内就会有新的功能和特征参数面世。
  32基于主题模型的特征抽取
  主题建模是对文档中隐含主题进行无监督的学习方法,它假定每篇文档由多个主题组成,每个主题就是词汇表中词语的条件概率分布,主要由若干出现频率较高的词语组成,只有这些词语才与主题有很强的相关性。
  主题模型主要有两类:概率潜在语义分析[30](Probabilistic Latent Semantic Analysis)和隐含狄利克雷分布[31](Latent Dirichlet Allocation)。从技术上讲,主题模型是基于贝叶斯网络的图模型,pLSA和LDA均能直接应用于意见挖掘中的产品主题和意见主题抽取,为了避免抽取主题的混乱,部分研究者用联合模型(Joint Model)分别完成产品特征项和意见词的抽取工作。
  扩展的主题模型在产品特征项抽取中应用较多,Mei[32]在pLSA主题模型基础上实现的主题情感混合(Topic-Sentiment Mixture)模型。该模型针对iPod等主题的即席(Ad hoc)查询显示各项特征(如:电池寿命、外观、尺寸)详细的情感极性及强度,并显示各主题随时间的情感变化曲线。主要实现思路是将单词依照概率分布分为与主题无关的普通词(如the,a,of)、正向主题相关词、负向主题相关词、中性主题相关词4类,用最大期望(Expectation-Maximization)算法估计每个类中的词项概率分布。实验结果证明其模型比Opinmind[33]系统中情感分析的粒度更细。
  Titov[34]提出的多粒度LDA模型(Multi-Grain LDA)避免了LDA模型中出现的主题含义无法显式确定的问题,并将其应用于主题的情感摘要生成系统中。他认为评论文档是由滑动窗口(Sliding Window)的集合构成,而滑动窗口又由文档中连续的句子组成。每个滑动窗口中存在局部主题的概率分布,而整篇文档对应一个全局主题的概率分布。特征词项不仅可以从局部主题的概率分布中生成,还可从全局主题的概率分布中产生。在对TripAdvisor.com网站获取的关于hotel评论文本实验中,将hotel领域实体(如:London hotels、seaside resorts)作为全局主题,将属于实体的特征项(如:service、location、rooms)作为局部主题,并将每个特征的评分(1~5的整数值)作为观测值加入到模型中,同时假定对特征评论的文本是对该特征评分的预测信息,这样完成了主题与特征项的关联。
  Zhao[35]等人结合最大熵(Maximum Entropy)和主题模型提出的ME-LDA模型(MaxEnt-LDA)利用句法结构规则完成特征词和与特征相关的意见词抽取。该实验中首先在标注的训练集中用ME算法学习一系列变量参数,然后从这些参数的多项概率分布中产生指示变量(Indicator Variable),最后通过指示变量来确定句子中的词项是产品特征项还是意见词。Sauper[36]将隐马尔科夫(HMM)和主题模型结合提出的联合模型(HMM-LDA)仅适应于短文本片段的产品特征项抽取,如:“我最看中的是这款手机的外观”中的“外观”特征项抽取。该思路在Griffith[37]、Liu[38]、Lu[39]等人的文献中也有所体现。Brody[40]提出的针对句子而非篇章级的局部隐含狄利克雷分布(Local LDA)模型完成餐馆和上网本领域的产品特征抽取。Lin[41]等人对词采集情感标签和主题标签实现的Joint Sentiment/Topic(JST)模型,而Jo[42]对句子采集情感标签和主题标签提出的Aspect Sentiment Unification Model(ASUM)模型均可看作是对LDA模型的扩展。Mukherjee[43]等人认为用户对产品特征词的归类受个人主观影响,因此采用半监督方式实现ME-SAS模型(Maximum Entropy Seeded Aspect Sentiment)完成特征词的抽取和聚类工作,主要由用户提供少量特征种子词再利用ME-SAS模型指导生产满足用户需要的其他特征词。   与监督学习技术相比,主题模型的优势在于无需人工标注数据,并且在无人监督情况下同时完成产品特征项的抽取和归类任务。但是为了达到较高的准确率,主题模型通常需要大量未标注的数据进行长时间训练。
  4隐式与显式产品特征间的关联
  上述方法主要对名词或名词短语这类显式产品特征进行抽取,对于那些没有在语句中直接进行描述,需要对句子进行语义理解才能得到的隐式特征也不容忽视,它们通常由形容词或动词表示产品的某一属性。如:“哇,iPhone 5s屏幕上的内容,我要眯着眼才能看清楚。”中的动词短语“眯着眼看”表示手机的屏幕小。
  近年来产品隐式特征抽取方面,各学者也介绍了自己的实现思路。Su[44]提出的聚类方法来建立那些假定为情感词的隐式特征表达与对应显式特征之间的映射。该方法利用显式特征和情感词之间相互强化的关系,同时对两者的内容信息和情感链接信息不断聚类形成产品特征簇和情感词簇。Yan[45]等人基于PageRank算法提出的NodeRank来依据特征-情感对的重要程度对隐式特征进行抽取。Tuarob[46]等人利用产品设计上下文知识,采用共词网络(Co-word Network)的概率模型,对Twitter中有关智能手机评论内容完成隐式产品特征的抽取工作。Hai[16]提出的两相共生(Two-phase Co-occurrence)关联规则挖掘方法完成隐式特征(假定为情感词)与显式特征的匹配。该方法在第一阶段对句中经常共同出现的情感词和显式特征来说,将情感词作为条件,显式特征代表结果,由此生成对应的关联规则;第二阶段将规则的结果(显式特征)聚类以生成对情感词更健壮的规则(Robust Rule)。如果情感词没有相应的显式产品特征,则将最佳规则簇内的代表性词作为识别出的产品特征。
  5结语
  本文结合国内外的研究现状从4个方面对意见挖掘模型中的产品特征抽取工作进行了综述,并指出了各自的优势和不足。随着电子商务的日渐普及,产品意见挖掘作为情感分析的一个重要应用方向,其产品特征抽取研究更具有举足轻重的地位,未来需要深入研究的问题还有:
  (1)由于受文化和表达习惯的影响,人们用不同的术语来表述同指特征(如:MMC卡,microSD卡、TF卡和扩展卡均指手机的外部存储卡),通过WorldNet或HowNet词典进行同义词分组归类的处理方式是远远不够的,一方面词典收录的局限性导致缩略语、专门术语(Jargon)等无法识别;另一方面许多同义词具有领域依赖性,因此对同指特征的抽取可通过查找网页计算其与已知特征的互信息(Mutual Information)来决定。
  (2)目前大部分研究集中在结构化或半结构化文档集合的特征抽取上,但是近年来微博成为用户进行产品评论的重要信息源,由于其言简意赅的特点和表达用语的不规范性,因此针对微博中短文本的产品特征抽取研究更具有挑战性。
  (3)隐式产品特征的抽取虽有进展,但目前研究较少,笔者认为借鉴前人研究的由少量显式特征种子词结合词间相似度计量方法来抽取产品特征词思路,利用Mikolov[47]在2013年实现的深度学习(deep learning)工具word2vec会提高产品特征词的召回率和准确率。
  参考文献
  [1]Liu B.Web data mining:exploring hyperlinks,contents,and usage data[M].Springer Verlag,2007.
  [2]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.
  [3]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer.2007:9-28.
  [4]Ku L-W,Liang Y-T,Chen H-H.Opinion Extraction,Summarization and Tracking in News and Blog Corpora[C].Proceedings of the AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs,2006:100-107.
  [5]Scaffidi C,Bierhoff K,Chang E,et al.Red Opal:product-feature scoring from reviews[C].Proceedings of the Proceedings of the 8th ACM conference on Electronic commerce,ACM,2007:182-191.
  [6]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.
  [7]Long C,Zhang J,Zhut X.A review selection approach for accurate feature rating estimation[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Association for Computational Linguistics,2010:766-774.   [8]郝博一,夏云庆,郑方.OPINAX:一个有效的产品属性挖掘系统[C].Proceedings of the 第四届全国信息检索与内容安全学术会议论文集(上卷),2008.
  [9]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.
  [10]Liu B,Hu M,Cheng J.Opinion observer:analyzing and comparing opinions on the web[C].Proceedings of the Proceedings of the 14th international conference on World Wide Web,ACM,2005:342-351.
  [11]Baccianella S,Esuli A,Sebastiani F.Multi-facet rating of product reviews[M].Advances in Information Retrieval.Springer,2009:461-472.
  [12]Stone P J,Dunphy D C,Smith M S.The General Inquirer:A Computer Approach to Content Analysis[J].1966.
  [13]Jiang P,Zhang C,Fu H,et al.An approach based on tree kernels for opinion mining of online product reviews[C].Proceedings of the Data Mining(ICDM),2010 IEEE 10th International Conference on,IEEE,2010:256-265.
  [14]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.
  [15]Du W,Tan S.An iterative reinforcement approach for fine-grained opinion mining[C].Proceedings of the Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2009:486-493.
  [16]Hai Z,Chang K,Kim J-j.Implicit feature identification via co-occurrence association rule mining[M].Computational Linguistics and Intelligent Text Processing.Springer,2011:393-404.
  [17]Qiu G,Liu B,Bu J,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.
  [18]Shi B,Chang K.Mining chinese reviews[C].Proceedings of the Data Mining Workshops,2006 ICDM Workshops 2006 Sixth IEEE International Conference on,IEEE,2006:585-589.
  [19]Li Z,Zhang M,Ma S,et al.Automatic extraction for product feature words from comments on the web[M].Information Retrieval Technology.Springer,2009:112-123.
  [20]Yu J,Zha Z-J,Wang M,et al.Domain-assisted product aspect hierarchy generation:towards hierarchical organization of unstructured consumer reviews[C].Proceedings of the Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2011:140-150.
  [21]Eddy S R.Hidden markov models[J].Current opinion in structural biology,1996,6(3):361-365.   [22]Lafferty J,McCallum A,Pereira F C.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001.
  [23]Wong T-L,Bing L,Lam W.Normalizing web product attributes and discovering domain ontology with minimal effort[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:805-814.
  [24]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.
  [25]Li F,Han C,Huang M,et al.Structure-aware review mining and summarization[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:653-661.
  [26]Choi Y,Cardie C.Hierarchical sequential learning for extracting opinions and their attributes[C].Proceedings of the Proceedings of the ACL 2010 Conference Short Papers,Association for Computational Linguistics,2010:269-274.
  [27]宋晓雷,王素格,李红霞.面向特定领域的产品评价对象自动识别研究[J].中文信息学报,2010,24(1):89-93.
  [28]姚天,聂青阳,李建超,等.一个用于汉语汽车评论的意见挖掘系统[C].Proceedings of the 中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集,北京:清华大学出版社,2006:260-281.
  [29]Liu J,Wu G,Yao J.Opinion searching in multi-product reviews[C].Proceedings of the Computer and Information Technology,2006 CIT06 The Sixth IEEE International Conference on,IEEE,2006:25-25.
  [30]Hofmann T.Probabilistic latent semantic indexing[C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.
  [31]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,(3):993-1022.
  [32]Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[C].Proceedings of the Proceedings of the 16th international conference on World Wide Web,ACM,2007:171-180.
  [33]Mei I-H,Mi H,Quiaot J.Sentiment Mining and Indexing in Opinmind[C].Proceedings of the ICWSM,Citeseer,2007.
  [34]Titov I,McDonald R.A joint model of text and aspect ratings for sentiment summarization[J].Urbana,2008,51(61801.
  [35]Zhao W X,Jiang J,Yan H,et al.Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C].Proceedings of the Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2010:56-65.   [36]Sauper C,Haghighi A,Barzilay R.Content models with attitude[C].Proceedings of the,Association for Computational Linguistics,2011.
  [37]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C].Proceedings of the Advances in neural information processing systems,2004:537-544.
  [38]Liu J,Cao Y,Lin C-Y,et al.Low-Quality Product Review Detection in Opinion Summarization[C].Proceedings of the EMNLP-CoNLL,2007:334-342.
  [39]Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:121-130.
  [40]Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[C].Proceedings of the Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2010:804-812.
  [41]Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the Proceedings of the 18th ACM conference on Information and knowledge management,ACM,2009:375-384.
  [42]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:815-824.
  [43]Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[C].Proceedings of the Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1,Association for Computational Linguistics,2012:339-348.
  [44]Su Q,Xu X,Guo H,et al.Hidden sentiment association in chinese web opinion mining[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:959-968.
  [45]Yan Z,Xing M,Zhang D,et al.EXPRS:An extended pagerank method for product feature extraction from online consumer reviews[J].Information
其他文献
Dubai is a familiar and mysterious place among many people’s impression. Becoming more familiar with the city, I’ve heard too many stories and legends about Dubai. The desert oasis is full of sparklin
春天那么暖和  我当然想抱抱春天  春天那么顽皮  他当然会假装逃跑  我在树林里追  春天在树林里逃  春天逃过的地方  树木小草全绿了  还惊醒了树木娇嫩的芽苞  我当然会跟绿色打个招呼  还要欣赏一下  芽苞们刚睡醒的容貌  我在田野里追  春天在田野里逃  春天逃过的地方  又把花儿蝴蝶惊醒,于是  花儿起床梳妆打扮  蝴蝶跳起了舞蹈  我当然要摘一些花戴头上  还要跟蝴蝶点头微笑  突然
中共中央政治局常委、中央纪委书记王岐山3月10日参加了十二届全国人大三次会议山西代表团的审议。他指出,山西发生系统性、塌方式腐败案件,教训十分深刻,这个代价不能白付。忘记过去就意味着背叛,看待腐败问题要有历史、哲学和文化的思考。要保持坚强政治定力,把全面从严治党落到实处,为“五位一体”建设提供保证。要严明党的纪律,用最坚决的态度减少腐败存量,用最果断的措施遏制腐败增量,落实党风廉政建设主体责任,抓
共产党人不屑于隐瞒自己的观点和意图。他们公开宣布:他们的目的只有用暴力推翻全部现存的社会制度才能达到。让统治阶级在共产主义革命面前发抖吧。无产者在这个革命中失去的只是锁链。他们获得的将是整个世界。  全世界无产者,联合起来!  《共产党宣言》的这个经典段落,是许多人耳熟能详的。但这段文字的早期中译文,与我们今天看到的译文在措辞、文风上有较大差异。在马克思主义译介传播史上,这个经典段落被一再重译,经
2015年7月下旬至9月中旬,中央有关部门派出五个调研组,分赴广东、贵州、青海、西藏、新疆等8个省区、22个地市和中央党校、国家发改委、教育部、中科院、中国社科院等6个中央单位,在离退休干部中开展了“我看十八大以来的变化”调研活动,同时委托北京、内蒙古、辽宁、吉林、江苏、浙江、四川等14个省区市和人民日报社等6个中央单位老干部工作部门作了配合调研。通过直接和配合调研,共听取5682名省部级、厅局级
多年来的过度扩张最终导致中国体育服装行业在去年全面爆发危机,国内几大体育品牌无一幸免,包括李宁、安踏、361°等公司关店总数超过3000家。截至今年6月30日,李宁关店410家;安踏关店273家;匹克店面总数6194家,关店289家;361°店面总数7826家,关店总数601家。  从数据看,中国体育用品行业仍未摆脱下滑困境,李宁从去年上半年净盈利跌至净亏损,安踏和匹克的营收及利润仍处于双降状态。
“这显然是新西兰最黑暗的日子之一”,2019年3月15日新西兰克赖斯特彻奇市(基督城)发生严重枪击事件后不久,新西兰总理发表讲话时这样说。若干年来,英国、法国、德国等国都先后经历了类似的“最黑暗的日子”,遭遇不同程度的恐怖袭击,这使得西方社会的“伊斯兰恐惧症”进一步蔓延。  患上“伊斯兰恐惧症”的西方社会  “伊斯兰恐惧症”也被叫做“伊斯兰威胁论”或“穆斯林恐惧症”。在西方社会,对伊斯兰教和穆斯林
帮助其他国家抗击疫情的中国,正以实际行动践行“构建人类命运共同体”的宣言。  自从疫情暴发以来,中国始终站在抗击新冠肺炎疫情的第一线,尽全力防疫抗疫,以实际行动赢得了国际社会的认可。联合国秘书长古特雷斯表示,中国为抗击新冠肺炎疫情并避免其蔓延作出了巨大牺牲,为全人类作出了贡献;世界卫生组织总干事谭德塞也指出,中国强有力的举措既控制了疫情在中国境内扩散,也阻止了疫情向其他国家蔓延,不仅是在保护中国人
他,有五张儿(指50岁)了吧?可能实际年龄并没那么大。常年的风吹日晒,已经使他的皮肤粗糙得像一张褐色的粗粒儿砂纸。不知为什么,第一次见到他,我就想起了电视剧《家有儿女》中出演爸爸的演员高亚麟。我是“高粉”,我喜欢高亚麟质朴而又幽默的表演。他的身高、他肉嘟嘟的嘴唇以及他憨厚的微笑,使他和高亚麟颇有几分形似。当然,他远没那么玉树临风、光鲜整洁,他身上“朝阳绿化”的荧光橙色马甲,使他和高亚麟注定分属两个
摘 要:[目的/意义]健康网站信息文本的可读性水平直接影响公众对健康信息的加工认知过程,进而影响用户与健康有关的决策以及网站自身的发展。[方法/过程]通过对国内外可读性计算方法原理的梳理和辨析构建面向中文健康信息的可读性计算公式,选取中国健康教育网站中食品安全健康教育材料进行可读性计算和评价,从年份、来源网站性质和阅读次数3个方面分析中文食品安全在线健康教育信息可读性情况。[结果/结论]中文食品安