论文部分内容阅读
随着因特网的普及,各行业企业信息化程度的提高,非结构化的数据资源量呈指数上升态势。全球海量的数据资源混杂在一起,使得真正有用的信息被埋没。用户需要一个简单便捷的工具从大规模的数据资源中提取符合自身需求的数据。而具有广阔应用前景的文本分析技术正好可以解决这一问题。文本分析是以非结构化或半结构化的海量数据资源为目标,将文本转化成方便计算机处理的形式,再从中总结重要的规律并以便于用户理解接收的形式输出。文本分析资源与任务管理系统采用Spring-boot框架、Eclipse开发平台、MySQL数据库和Redis数据库进行开发。本系统主要包含了资源管理子系统和文本处理子系统,并将其细化分为分类规则管理模块、词库管理模块、数据源管理模块、策略管理模块、自动分词模块、摘要关键词模块、实体抽取模块、文本分类模块、文本聚类模块、拼音标注模块、繁简转换模块等。本人主要负责设计实现资源管理部分的相关模块,可以实现大批量快速地处理文本,对其中的关键信息加以提炼,以可视化的数据形态向人们展现数据之间的关联性,亦可通过对词库、规则、数据源的管理与优化实现文本处理的个性化定制。通过这个系统,用户可以在某一特定领域对文本进行更精细的大批量处理,对其中的关键信息加以提炼,提高了工作效率。本系统可以应用于通信、科技、媒体、电商等行业的用户需求分析和数据分析。通过对用户评价、用户反馈问题的语义分析,提取关键词,发现用户集中的问题,进而改善服务,或者从中抓取用户需求,发掘新的机会。目前,该产品已投入使用,总体达到了预期目标。本人负责设计实现的各个模块运行正常,可以满足用户的基本需求,并且各模块均具有很强的可拓展性,有助于后期系统优化和拓展。