【摘 要】
:
时至今日,互联网的发展有目共睹。在各项技术都非常迅速的发展情况下,视频,音频,文本数据急剧积累,形成了非常惊人的数据集。其中,作为文本形式被存储的数据占了相当一部分比
论文部分内容阅读
时至今日,互联网的发展有目共睹。在各项技术都非常迅速的发展情况下,视频,音频,文本数据急剧积累,形成了非常惊人的数据集。其中,作为文本形式被存储的数据占了相当一部分比例。数据的大量累积和云计算等技术的兴起也让人们意识到面对浩如烟海的海量数据,我们可以使用各种手段来进行知识挖掘。在本文中,主要花费精力针对文本挖掘中的WEB文本爬取技术和文本分类技术进行研究并运用于实际的系统中。同时在文本情感分析的模块中使用了朴素贝叶斯方法进行初次分类,在二次的正负极性分类中,使用了情感词词典的的方法。本项目中的情感词词典是以知网为基础,自己人工添加网络新词,表情符号的针对社交领域的领域性词典。具体成果如下:1构建了针对社交网络和微博的高效的多线程免登陆爬虫系统,解决了后续模块数据集的收集问题。2构建了针对WEB状态文本(主要以新浪微博和人人网为主)的情感分析和倾向性判定系统。初次分类使用朴素贝叶斯算法,二次分类使用基于领域细分的情感词典。3基于中文的知网里的字典文件,构造扩展了专门针对社交领域和微博类媒体的领域情感词典。被情感分析模块使用,提高了分类的准确率。4最后总结介绍了自己研究生期间外出实习做过的一些工作
其他文献
日本园林风格虽然受我国园林艺术的影响,但经过长期的发展与创新,已形成日本民族独有的自然式风格的山水园,其园林体系在风格、手法及造园思想等各个方面都呈现出不同的特点
对国内外婴幼儿配方奶粉中水溶性维生素的检测方法现状进行评述,重点介绍微生物法、荧光光度法、高效液相色谱法。对目前存在的问题和今后的分析发展方向提出建议,为今后水溶
公司并购动因研究是公司并购理论研究中的一个热点。国外学者对公司并购动因作了广泛而深入的研究,提出了协同效应理论、交易费用理论、代理理论、“自大”假说和市场势力理论
群体感应(quorum-sensing, QS)系统是一种细菌细胞间信息传递的机制,许多细菌利用该系统调控体内特定的功能,如生物发光、生物膜形成、有害毒素产生、胞外酶合成等。为研究大
漂白在棉型织物的前处理过程中占有重要的地位,该过程可以去除天然色素和部分其它杂质,为后续染整加工垫定良好的基础。常规双氧水漂白通常需要在高温、高碱性的条件下进行,不
随着当今通信技术的发展,应用于不同功能的无线通信系统不断出现。为了能够将多个无线通信系统集成于同一平台,并能够实现平台上多系统间的相互协作,宽带无线通信技术已经成为了
体育场馆的非赛时利用问题一直是困扰体育场馆建设发展的一个重要问题。我国的很多专家学者的研究目光往往集中在类似于高级别的大型体育场馆的建设及其利用上,对于中小城市的
竹纤维是新近开发的一种植物纤维。对竹单纤维、竹束纤维以及纤维集合体的亲水、导水性能的研究对竹材和竹纤维的利用有着重要意义。本文首先测试了竹单纤维的接触角及表面能
随着互联网、社交平台以及移动技术的飞速发展,人们越来越多的和网络接触,并在互联网上和他人分享自己的观点。人们每天所关心的、谈论的内容即是本文提及的热点话题。热点话