论文部分内容阅读
互联网以其丰富的海量资源且规模日益增长的、开放的特性,成为各个行业以及各种信息系统重要的信息来源。如何从这个巨大的信息资源库中准确地获取有价值的信息,成为各种信息情报分析及决策系统研究的关键问题之一。从互联网上抓取到的网页文本信息质量的好坏,将直接影响到后期信息处理与决策制定的准确性。因此,若能够高效准确地对从互联网上抓取到的网页进行信息抽取、质量评估以及根据相应的特征对抽取出来的网页文本进行分门别类,不仅能提高信息处理人员的工作效率,而且更能够提高特定情报分析系统以及决策系统的实用价值。本文依托云南省科技厅科技基础条件平台建设项目“云南省竞争情报公共服务平台及服务体系建设”以及科技部科技型中小企业技术创新基金项目“商业智能竞争情报管理系统”为支撑,从项目实际应用需求出发,同时进行理论创新。对竞争情报系统、网页信息抽取以及文本特征词提取的国内外研究现状及存在的问题进行简要分析,并分别介绍了本文所研究的“可视化网页信息抽取系统”以及“文本特征词提取”。本文设计并实现了“可视化网页信息抽取系统”,同时引入词性对TF*IDF进行改进,对文本特征词提取进行了研究,并对其中算法的可行性以及准确性进行评估与验证。本文从项目实际应用需求以及友好的用户操作的角度出发,设计并实现了“可视化网页信息抽取”系统。对传统的基于模板的网页信息抽取方式进行改进,设计了一种网页信息抽取规则与模板相结合的网页信息抽取方案,并在可视化环境中实现网页信息各抽取目标项抽取规则及模板的生成,依据站点模块的不同对生成的抽取模板进行分类。解析站点中某个模块下的网页时,根据网页分类规则获取抽取该模块网页信息的抽取模板,然后根据该抽取模板的各个目标项的抽取规则,解析出网页中各个目标项的文本,并封装成标准的结构化文档。实验表明,该方案不仅能友好便捷地生成各站点及站点模块的网页信息抽取规则、模板,而且获得了良好的网页信息抽取准确率及召回率。本文研究了文本特征词提取技术。利用IKAnalyzer进行分词时,引入词性标注过程,结合Sogou词库[31]以及结构与Sogou词库相同的备选词库,对分词获得的每个词条标注词性,同时对传统的TF及IDF进行统计。对每个词性的权重度量值进行调整,利用W=TF*IDF*ATTR词条权重计算公式对各个词条进行权重计算并非递减排序,选取若干个权重最大的词条作为相应站点或行业的特征词集。利用KNN分类算法根据系统提取的特征词进行实际文本分类验证,获得良好的分类效果,并利用向量空间模型进行验证,获得了较高的平均F1值。