【摘 要】
:
随着社交网络媒体的不断快速发展与进步,互联网上的文字信息急剧膨胀。微博作为目前中国最受欢迎的微博客服务,每时每刻都在产生海量的数据,这些数据包含了大量的有关网民情绪与态度的信息。如果将情感分析技术应用到微博的海量数据上,可以从海量数据中发掘出价值,利用这些数据,将有助于完善互联网的舆情监测系统,以检测物理世界中的异常或意外事件。本文将主要研索目标设定为中文短文微博,为此,本文主要做了关于以下方面的
论文部分内容阅读
随着社交网络媒体的不断快速发展与进步,互联网上的文字信息急剧膨胀。微博作为目前中国最受欢迎的微博客服务,每时每刻都在产生海量的数据,这些数据包含了大量的有关网民情绪与态度的信息。如果将情感分析技术应用到微博的海量数据上,可以从海量数据中发掘出价值,利用这些数据,将有助于完善互联网的舆情监测系统,以检测物理世界中的异常或意外事件。本文将主要研索目标设定为中文短文微博,为此,本文主要做了关于以下方面的研究工作:(1)在微博数据的获取方面,本文设计了一个爬虫架构,并基于该架构实现了一个使用python语言编写的微博数据采集系统。该系统使用selenium通过模拟人工操作浏览器解决微博的身份认证问题。同时,参考聚焦爬虫的设计模式,有针对性地采集微博数据。该爬虫系统解决了逆向微博工程量大实现复杂,完全使用浏览器模拟操作文本采集过慢的问题,在理想情况下该爬虫系统的单线程采集速率可以达到每分钟约800条。(2)在情感分析方面,考虑到情感词对文本情感表达的积极影响,本文整合了几个在中文情感分析领域常用的情感词典,设计了使用情感词对词向量进行权值调整的策略。为了验证该方法的有效性,本文通过将未调整的词向量和调整过的词向量分别输入TEXTCNN和LSTM,通过多次试验比较,结果表明在使用情感词对词向量进行调整之后,TEXTCNN在情感二分类任务上达到最高分类准确度84.1%,比未进行词向量调整时分类准确度提高了2.1%,证明对词向量的调整在微博情感分类问题上有正向积极影响。(3)整合上述研究成果,对微博情感分类的系统进行了设计并对系统后台进行了实现。系统提供了对微博用户个人信息采集的接口与对关键字信息采集的接口,并且提供了对微博进行情感分析的接口,可以实现对微博数据的高效获取与对微博情感的简单分类,这为后续的研究打下良好铺垫。
其他文献
会计作为一个信息系统,它所反映的对象是会计主体的经济活动,就其反映内容来说是客观的。会计又是一个由人操纵的信息系统,在对客观经济活动进行反映时,难免会带有一些主观色彩。
目的:研究青海高原地区汉族胃癌患者与健康人群中ERα基因Pvu II和Xba I、ERβ基因Rsa l和Alu I单核苷酸多态性(SNPs)的分布情况;进而来揭示青海地区汉族胃癌患者是否与ERα
肿瘤凋亡因子TRAIL是TNF家族的成员之一,其不论在体内还是体外均可选择性的诱导癌细胞凋亡,初期临床试验已经证实TRAIL或死亡受体激动剂抗体在癌症治疗中的安全性。另外,也有
《黑格尔法哲学批判》是马克思写于1843年的一部未完成的手稿,是对黑格尔国家观部分展开的批判,也是经历《莱茵报》时期困惑、疑问和探索之后自觉清算黑格尔主义的第一部著作。马克思世界观转变历程的第一座里程碑《黑格尔法哲学批判》为马克思向唯物史观和共产主义的转变作了重要铺垫。本文以《黑格尔法哲学批判》为研究对象,对其写作背景和理论来源作了分析,从黑格尔国家观的王权、行政权和立法权方面加以研究和批判。《莱
0引言现代科学技术的发展既高度分化又高度综合,个人只有通过合作和交流实现智力的互补,才能发挥出最佳的创造力。中国著名科学家赵红州曾指出"数量众多的科学家之间的协作,形
背景宫颈癌在发展中国家上升为第2位女性常见的恶性肿瘤,仅次于乳腺癌。据世界卫生组织估计,在宫颈癌每年新发病例数中,中国约占世界总发病数的28%。已严重威胁中国女性健康,
目的:探索放疗前后肾虚血瘀证肿瘤患者中医证候学变化规律方法:本研究采用回顾性的研究方法,确定临床研究思路,制定纳入标准、排除标准,并严格按纳入、排除标准收入30例肾虚血
目的:探讨血清PSA系列、TRUS及其引导下6+X点前列腺穿刺法对前列腺癌的临床诊断价值。方法:(1)回顾性分析2012年12月至2014年12月229例PSA>4ng/ml或直肠指检发现异常结节和(或)
针对离散系统变结构控制,提出了两个新的滑模趋近律.应用该趋近设计变结构控制系统,其原点的稳定性和系统的平稳性都优于指数趋近律和比例-等速-变速趋近律.通过仿真例子对此
由于对食品安全的重视,消费者们容易在食品消费上陷入误区中。食品安全消费误区有哪些?要求食品绝对安全、吃了致癌物质就一定会致癌、不合格食品等于有毒食品等都是消费者在