可视化网页信息抽取与文本特征词提取技术研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户：zm_free

【摘要】

：

互联网以其丰富的海量资源且规模日益增长的、开放的特性,成为各个行业以及各种信息系统重要的信息来源。如何从这个巨大的信息资源库中准确地获取有价值的信息,成为各种信息

【作者】

：

张志伟

【出处】

：

昆明理工大学

【发表日期】

：

2013年01期

【关键词】

：

可视化信息抽取特征词提取词性标注分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网以其丰富的海量资源且规模日益增长的、开放的特性,成为各个行业以及各种信息系统重要的信息来源。如何从这个巨大的信息资源库中准确地获取有价值的信息,成为各种信息情报分析及决策系统研究的关键问题之一。从互联网上抓取到的网页文本信息质量的好坏,将直接影响到后期信息处理与决策制定的准确性。因此,若能够高效准确地对从互联网上抓取到的网页进行信息抽取、质量评估以及根据相应的特征对抽取出来的网页文本进行分门别类,不仅能提高信息处理人员的工作效率,而且更能够提高特定情报分析系统以及决策系统的实用价值。本文依托云南省科技厅科技基础条件平台建设项目“云南省竞争情报公共服务平台及服务体系建设”以及科技部科技型中小企业技术创新基金项目“商业智能竞争情报管理系统”为支撑,从项目实际应用需求出发,同时进行理论创新。对竞争情报系统、网页信息抽取以及文本特征词提取的国内外研究现状及存在的问题进行简要分析,并分别介绍了本文所研究的“可视化网页信息抽取系统”以及“文本特征词提取”。本文设计并实现了“可视化网页信息抽取系统”,同时引入词性对TF*IDF进行改进,对文本特征词提取进行了研究,并对其中算法的可行性以及准确性进行评估与验证。本文从项目实际应用需求以及友好的用户操作的角度出发,设计并实现了“可视化网页信息抽取”系统。对传统的基于模板的网页信息抽取方式进行改进,设计了一种网页信息抽取规则与模板相结合的网页信息抽取方案,并在可视化环境中实现网页信息各抽取目标项抽取规则及模板的生成,依据站点模块的不同对生成的抽取模板进行分类。解析站点中某个模块下的网页时,根据网页分类规则获取抽取该模块网页信息的抽取模板,然后根据该抽取模板的各个目标项的抽取规则,解析出网页中各个目标项的文本,并封装成标准的结构化文档。实验表明,该方案不仅能友好便捷地生成各站点及站点模块的网页信息抽取规则、模板,而且获得了良好的网页信息抽取准确率及召回率。本文研究了文本特征词提取技术。利用IKAnalyzer进行分词时,引入词性标注过程,结合Sogou词库[31]以及结构与Sogou词库相同的备选词库,对分词获得的每个词条标注词性,同时对传统的TF及IDF进行统计。对每个词性的权重度量值进行调整,利用W=TF*IDF*ATTR词条权重计算公式对各个词条进行权重计算并非递减排序,选取若干个权重最大的词条作为相应站点或行业的特征词集。利用KNN分类算法根据系统提取的特征词进行实际文本分类验证,获得良好的分类效果,并利用向量空间模型进行验证,获得了较高的平均F1值。

其他文献

空间信息网中跨域端到端安全关联协议的研究

随着空间信息技术的快速发展,网络通信的安全性问题日益得到重视。其中,空间信息网(Space Information Networks,SIN)作为国家重点建设的大型网络基础设施,在促进经济社会快

学位

空间信息网非交互式密钥协商端到端安全通信

MC-CDMA系统中检测算法的研究

随着通信技术的飞速发展和用户需求的提高,特别是移动多媒体和高速数据业务的迅速发展,迫切需要一种新的网络以提供更宽的工作频带、支持更加灵活的多种类业务(高速率数据、

学位

MC-CDMA多用户检测遗传算法

HFC系统中光接收机的应用

学位

MC-CDMA多用户检测遗传算法

Girdin介导HGF/MET信号通路调控肺癌细胞侵袭

肺癌是世界上最常见的恶性肿瘤,在恶性肿瘤相关死亡原因中排名第一,其中非小细胞肺癌(NSCLC)占所有肺癌病例的80%-90%。近年来全球肺癌的发病率和死亡率呈逐年上升趋势,尤其

学位

非小细胞肺癌转移侵袭GirdinMET

实际控制人、机构投资者及两者的股权制衡对公司绩效的影响

我国上市公司存在股权集中现象,导致我国上市公司普遍具有实际控制人,实际控制人具有积极参与公司监督管理来提升公司绩效的动机,同时,也具有通过关联交易等隧道挖掘渠道侵害

学位

实际控制人机构投资者股权制衡度公司绩效

仿真模型数据高通量共享与并发访问

根据高性能计算和高通量计算的概念,结合当前复杂仿真系统的应用特点,给出了高通量仿真的定义。高通量仿真指的是利用大量的计算资源,在较长的时间内,以较高的运算效率完成大

学位

Alluxio高通量仿真I/O访问文件系统

MIMO-GFDM信号检测算法研究

广义频分复用(GFDM)是一种灵活的数字多载波调制方案,它的灵活性可以满足未来网络的多样化应用需求。多输入多输出(MIMO)技术可以在不增加天线发射功率和系统带宽的情况下提

学位

广义频分复用MIMO相关信道空时编码空间复用信号检测

基于Linux系统的惯导装置数据采集系统的设计

随着惯性导航技术的快速发展,对基于惯性导航装置数据采集系统的精度和数据处理吞吐量要求越来越高,性能优良的数据采集系统备受惯性导航技术工作者的欢迎,为了提高系统的高

学位

惯导Linux数据采集串口ARMQt上位机数据存储

Med19在皮肤黑色素瘤组织中的表达及其对A375细胞生物学行为的影响

背景黑色素瘤(Malignant melanoma,MM),是来源于神经嵴黑色素细胞的高度恶性肿瘤,常见于皮肤和其他器官黏膜,早期即可发生局部和远处转移,恶性程度高,进展迅速,总体中位生存

学位

中介体复合物19黑色素瘤小干扰RNA增殖凋亡

基于时间序列的DIBR孔填充方法的研究

随着3D电影《阿凡达》在国内外掀起的热浪,3D技术的发展迅速地成为业界关注的重点。3D获取可以通过直接拍摄,也可以通过一些后期处理技术生成新的虚拟视点。在立体显示中,更

学位

深度图预处理基于深度图绘制图像修复结构相似度测量孔填充

可视化网页信息抽取与文本特征词提取技术研究

其他学术论文