面向Lucene的中文分词器研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:mmx1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,广泛用于源自邮件、音频、文件、网页、论坛、社交媒体中的数据分析与应用,分词技术是自然语言处理的关键技术之一,是搜索引擎、文字摘要、内容比对等领域的基础技术。在处理人大代表提出的议案建议时,需要归并内容相似的议案建议以及剔除往年已办理过的类似议案建议,以提高政府工作效率和人大代表履职能力,在进行内容分析挖掘时首先就需要分词。目前存在的主要问题是如何根据实际需求设计合适的中文分词器。  开源工具包Lucene被广泛应用在索引与检索项目中实现分词,但随着应用的要求越来越高,依赖于Lucene的分词器已经不能满足实际的需求了,出现了一些开源中文分词器。本文面向人大代表议案建议相似度检测需要,对Lucene的内置中文分词器与开源中文分词器进行对比研究,选择相对优秀的IKAnalyzer分词器作为本文的应用分词器,并提出了改进方法。主要研究内容如下:  (1)比较Lucene内置的几种中文分词器,选择支持中文分词最好的SmartChineseAnalyzer分词器为比较对象之一;  (2)对比分析Paoding、mmseg4j、IKAnalyzer、imdict-chinese-analyzer这四种开源中文分词器,选择IKAnalyzer分词器作为研究对象;  (3)优化IKAnalyzer中文分词器,扩展其词库和调优存储字典树的结构的性能参数实现空间和时间的最优平衡来达到分词效果更好的目的;  (4)将SmartChineseAnalyzer分词器、IKAnalyzer分词器、改进的IKAnalyzer分词器分别与Lucene结合实现分词,对比考察分词效果、分词耗时、CPU资源占用、文本相似度四个方面性能;  (5)将改进的IKAnalyzer分词器应用到人大代表议案建议处理系统,实现了人大代表议案建议的相似度检测,取得了较好的应用效果。
其他文献
随着互联网技术的发展,陆续出现了多种反网络审查的技术。这类技术助长了互联网中不良信息的传播,扰乱社会秩序甚至危害国家安全。基于诱捕路由的网络反审查技术将数据进行加密
开展校企协同育人机制建设与实践,吸收社会资源合作办学或共同培养人才,能有力的促进学校的各项改革,增强办学活力,提高教学质量.游戏系通过建立“企业导师制”、校企合作搭
航天嵌入式软件是面向航天领域的特殊的嵌入式软件,它的健壮性和可靠性直接关系到航天飞行器的安全。只有对软件进行充分的调试验证,才能保证飞行器的安全。因此,为了提高调试验
雾的研究涉及多个方面,包括大尺度雾天气学的研究,雾天气过程边界层结构研究,雾天与湍流、辐射过程,雾中湍流参数化及湍流输送过程,地表动力学粗糙度的研究等。已有研究多针对少量
目的 以乳腺癌表皮生长因子受体2 (HER2)为靶点,制备以顺磁性粒子钆为载体的MR分子探针,通过MR靶向成像为乳腺癌个体化治疗提供影像学依据.材料与方法 利用课题组前期制备的
无限局域网由于其方便快捷,广泛地应用于人群密集的热点区域,比如商业办公、个人家庭等领域。无线技术不仅正在改变找人们传统的工作学习和生活方式,而且使得人们可以随时随地获
近年来,三维模型的应用广泛,衍生出的相关技术也得到关注,但万宗之源仍是三维几何模型的获取。网格模型自身又具有的良好灵活性,便于修改和调整,所以充分利用己有的模型资源,经过适度变形,进而获得符合具体应用需求的新模型成为新的研究方向。为了提高既有模型的利用率,同时摆脱现有三维模型变形技术中对人工选取控制点的依赖,本文基于轮廓线和深度图的三维模型的变形技术开展研究,主要工作如下:(1)三维薄板样条变形技
本文中国科学院云南天文台扫描手绘太阳黑子图像为研究对象,研究图像中黑子面积的自动测量方法,使用计算机自动处理的方式,完成黑子面积的自动计算,并将信息与真实太阳黑子面积信
提升大学生就业竞争力,解决大学生就业问题是社会广泛关注的话题.由于多种因素的影响,大学生毕业后失业成为一种常态,也成为广大教育工作者需要致力研究的课题.本文首先对就
移动Web服务是Web Service技术在移动设备方面的应用之一,它已成为新时期移动服务系统设计的趋势。旅游业一直是移动信息系统应用的热门领域,在移动新技术的应用上有着巨大潜力