基于Web内容的业务洞察系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:linmao820521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代是信息爆发的时代,人们可以浏览多种多样的网络资源,塑造自己独特的浏览习惯。对于单个用户而言,其访问的网络资源信息的集合在一定程度上代表了其浏览习惯以及兴趣爱好。目前针对这些日志的普遍处理方法是采用DPI技术进行常规的字段统计,不涉及到对报文内的具体内容的分析,或者针对内容的分析只局限于URL指向的页面内容的目标文本,忽视了 URL资源的结构特点等诸多因素,最终降低了内容分析的精度。将URL资源的背景知识等信息也作为分析的原材料,结合URL的多级结构特点和网页类型特点实现对Web内容(Web页面和URL)的信息提取与分析的方法成为了研究重点。本文围绕网络运营商如何针对用户进行业务洞察的背景和需求,对基于Web内容的业务洞察实现时所需要的相关技术方案进行研究,最终设计并开发完成基于Web内容的业务洞察系统的搭建。主要研究内容有:1.研究新闻类、视频类、电子商务类的不同类型网页内容提取。本文分析了不同类型的网页的结构特点并设计和实现了不同类型的网页内容的提取方法,最终运用在URL分析和Web内容分析等功能模块中;2.研究URL标签信息获取。本文对URL的结构特点和背景知识进行分析,并归纳总结出一种可以识别URL信息并对信息进行统一化自动管理的方法;3.研究系统的平台架构搭建方案。本文从需求出发,将零散的技术以功能模块的形式进行整合,最终转化为完整的系统。根据对相关技术研究和调研所得到的解决方案,本文实现了网页信息多级标签获取方法,将URL拆分成多个字段并对每个字段的内容进行归类和解析的方法以及通过网络资源搜索匹配及识别信息的处理方法,并通过测试验证了这些方法的有效性。基于以上关键技术方案的实现,本文完成了基于Web内容的业务洞察系统的开发,该系统根据用户网络访问日志中的请求URL字段集合,实现了 URL分析,网页分类,Web内容分析,规则管理等功能,将URL字段集合转化为用户的行为特征信息,为用户特征提取提供基础,同时为网络运营商等服务提供商针对用户进行业务洞察提供了先决条件。
其他文献
基于网络的低硬件成本集群和网格计算系统发展迅速,促进了虚拟化技术在互联网中的发展和应用。但随之也出现了资源利用不均衡的问题,而负载均衡是提高系统资源利用率和并行计
跳水运动在19世纪末传入我国,自建国以后一直不断发展,如今中国跳水队持续多年坐稳该项目的霸主地位。山西省虽然作为一个内陆省份,跳水运动受关注度很少,但也曾取得过十运会
研究目的1.通过观察DN气阴两虚血瘀证患者尿中肾小球足细胞裂隙膜蛋白(Podocin)、足糖萼蛋白(Podocalyxin,PCX)、肾病蛋白(Nephrin)等足细胞标记蛋白表达与正常人群的差异,证
终端设备直接通信(Device to Device, D2D)技术是当前移动通信领域提升频谱效率、系统吞吐率和能量效率的重要手段之一,并已被列入3GPPRelease 12中,被称为邻近服务(Proximit
钛酸锶钡(Ba1-xSrxTi O3,BST)是钛酸锶和钛酸钡的完全固溶体,属于钙钛矿结构(ABO3),具有高介电常数、低介电损耗、居里温度可调等优点,广泛应用于介质储能、动态随机存储器、微波移相器和多层陶瓷电容器等领域,具有很好的研究价值和应用前景。本论文采用草酸盐沉淀法制备了Ba0.6Sr0.4Ti O3陶瓷粉体,通过X射线衍射、扫描电子显微镜、傅里叶变换红外光谱、热重-差热分析等测试手段对陶
从耦合角度下对SDN网络的脆弱性进行研究主要是针对复杂网络的单层和多层的区分,单层网络的失效研究中我们主要包括由于网络中相关网元的年久失效导致的随机失效和针对网络中
随着软件定义网络(SDN)的发展,SDN逐渐被应用在许多网络场景,网络规模也越来越大。随着SDN网络规模的扩大,控制平面可拓展性不足的问题成为制约网络规模增大的主要原因。目前
目的1.使用心脏磁共振评估室间隔缺损合并肺动脉高压患儿和正常儿童右心室功能的差异,并比较患儿术前及术后短期内右心室功能。2.了解心脏磁共振对评估右心室功能的应用价值
目的通过对确诊为青少年肌阵挛癫痫(juvenile myoclonic epilepsy,JME)的患者进行全外显子组测序(whole-exome sequencing,WES),明确JME患者的基因诊断,为JME的发病机制及诊
随着全球能源互联网概念的提出,“一极一道”通信与全球通信成为了国内外研究重点之一。卫星由于其空间位置优势,在全球通信和“一极一道”通信中起着关键性的作用。目前我国