基于多维语义的互联网违规信息识别技术优化研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:cracezhangxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网市场具有非接触、隐蔽性强、无经营场所、宣传成本低、主体难以追踪等特点,给不法分子在互联网上宣传、销售假冒伪劣产品和违禁产品带来可乘之机,给合法经营的商家和消费者带来巨大损失。为此,国家药监局、商务部以及多个国家电子商务示范城市正在组织实施“电子商务可信交易公共服务与监管平台”,目的是建立互联网交易市场的主体与客体基础信息数据库,追踪互联网交易市场中的违规信息,打击互联网交易市场中的违规行为。本文所研究的互联网违规信息识别技术是该项目的关键技术之一,目的在于追踪和识别互联网交易市场中的违规信息,提取违规证据,为相关政府部门提供决策支持。本文结合背景项目需求,调查了国内外网络搜索、文本分类、图片处理以及恶意网页分析等相关技术的研究现状,在作者所在实验室前期研究工作基础上,对互联网违规信息识别的整体技术方案进行了研究,改进了基于文本分类的违规信息识别技术,增加了基于组合搜索的目标网站发现技术和基于OCR、图片特征的违规图片识别技术,提高了监测系统的实时性和违规识别的准确率、召回率。互联网违规信息识别技术重点进行监测的违规信息包括如下几种类型:产品信息未备案或与备案信息不符、产品信息缺失、销售国家法律规定禁止销售的违禁物品、销售假冒伪劣产品、夸大宣传产品和诋毁贬低竞争对手产品。针对以上需求,该技术首先利用基于元搜索思想和组合搜索的目标网站自动发现技术找到目标网站,然后利用网络爬虫技术采集目标网站的网页文本和图片,最后采用基于决策树的违规信息识别算法、基于多维语义的产品信息抽取识别算法以及基于OCR、图片特征的违规信息识别算法分别对采集到的网页文本和图片进行违规分析,发现违规内容后进一步分析其违规类型、提取违规证据和计算违规严重程度,并把相关信息保存至数据库中。为了验证该方案的有效性,作者对方案中的关键技术进行了实验,其中基于多维语义的产品信息抽取技术对兽药和农药信息抽取的准确率分别达到75%和92%,召回率分别达到76%和75%,基于文本分类的违规信息识别技术的准确率和召回率达到87%和82%,基于OCR的违规图片识别技术的准确率和召回率达到69%和59%,基于图片特征的违规图片识别技术的准确率和召回率达到86%和68%,已符合项目要求。目前该技术已应用于可信平台,能够自动、实时监测互联网交易市场,为政府部门提供精准化的违规信息监测报表服务,对营造互联网可信交易环境有着重大意义。
其他文献
由于广泛支持包括视频点播、实时电话会议等多种视频应用服务,基于H.264编码标准的应用产品变得越来越流行,但由于其在设计之初并未考虑安全应用问题,因此如何确保H.264应用的安
信息资源的检索,不仅包括检索部分,还包括数据的收集、预处理、结构组织、存储、数据检索的表示以及数据与查询之间相关度的计算等。据此,本文针对人脸图像信息及文本信息资
近年来,网络上的信息传播正在逐步取代传统媒体,互联网上以音视频为代表的多媒体信息迅速增长,同时由网络音视频引发的信息安全问题也日益突显。不法分子在网络上大量传播淫秽色
互联网像星星之火一样飞速发展,用户以及其产生的信息呈爆炸式增长。而今,利用电子商务平台购物也越来越普通,逐渐也成为人们购物方式重要选择之一。但是网络购物方式为人们
无线传感器网络中,节点相互协作、自主运行,通常布置在偏僻地区、野外或者敌方战场等人员难以到达或不能到达的恶劣环境,而传感器节点一般由电池供电,其能量十分有限。很显然,通过
在自然界和工程实践中,经常遇到许多非平稳信号,譬如:语音、生物医学信号、雷达和声纳信号等。单纯的时域或频域的分析方法已经达不到工程上实践的要求,而时频分析方法的发展为非
随着我国民航业的不断发展,机场航空噪声对周围环境的影响越来越严重,为准确了解机场附近噪声污染状况,机场噪声监测处理系统的建立越来越重要,而机场噪声监测点的分布成为了实现
随着信息技术的发展,企业的信息管理系统保存了包括生产运作、销售、客户和产品等方面的大量数据。由于传统的信息系统缺乏有效的分析方法和技术,这些数据被深埋在各自系统设
产业是指创造类似的经济财货或效用的企业集合体。产业分布情况如何,意指产业单位能否在有限的空间内实现相关产业的优化组合,进而实现经济的无损高效合作,是经济发展水平的重要
近年来,随着自然灾害和突发事故等一系列灾难性事件频繁发生,世界各国都高度关注应急指挥系统的建设和应用研究,以尽可能减少灾难损失和提供及时的人道主义求助援助。应急指