论文部分内容阅读
互联网市场具有非接触、隐蔽性强、无经营场所、宣传成本低、主体难以追踪等特点,给不法分子在互联网上宣传、销售假冒伪劣产品和违禁产品带来可乘之机,给合法经营的商家和消费者带来巨大损失。为此,国家药监局、商务部以及多个国家电子商务示范城市正在组织实施“电子商务可信交易公共服务与监管平台”,目的是建立互联网交易市场的主体与客体基础信息数据库,追踪互联网交易市场中的违规信息,打击互联网交易市场中的违规行为。本文所研究的互联网违规信息识别技术是该项目的关键技术之一,目的在于追踪和识别互联网交易市场中的违规信息,提取违规证据,为相关政府部门提供决策支持。本文结合背景项目需求,调查了国内外网络搜索、文本分类、图片处理以及恶意网页分析等相关技术的研究现状,在作者所在实验室前期研究工作基础上,对互联网违规信息识别的整体技术方案进行了研究,改进了基于文本分类的违规信息识别技术,增加了基于组合搜索的目标网站发现技术和基于OCR、图片特征的违规图片识别技术,提高了监测系统的实时性和违规识别的准确率、召回率。互联网违规信息识别技术重点进行监测的违规信息包括如下几种类型:产品信息未备案或与备案信息不符、产品信息缺失、销售国家法律规定禁止销售的违禁物品、销售假冒伪劣产品、夸大宣传产品和诋毁贬低竞争对手产品。针对以上需求,该技术首先利用基于元搜索思想和组合搜索的目标网站自动发现技术找到目标网站,然后利用网络爬虫技术采集目标网站的网页文本和图片,最后采用基于决策树的违规信息识别算法、基于多维语义的产品信息抽取识别算法以及基于OCR、图片特征的违规信息识别算法分别对采集到的网页文本和图片进行违规分析,发现违规内容后进一步分析其违规类型、提取违规证据和计算违规严重程度,并把相关信息保存至数据库中。为了验证该方案的有效性,作者对方案中的关键技术进行了实验,其中基于多维语义的产品信息抽取技术对兽药和农药信息抽取的准确率分别达到75%和92%,召回率分别达到76%和75%,基于文本分类的违规信息识别技术的准确率和召回率达到87%和82%,基于OCR的违规图片识别技术的准确率和召回率达到69%和59%,基于图片特征的违规图片识别技术的准确率和召回率达到86%和68%,已符合项目要求。目前该技术已应用于可信平台,能够自动、实时监测互联网交易市场,为政府部门提供精准化的违规信息监测报表服务,对营造互联网可信交易环境有着重大意义。