【摘 要】
:
网络信息安全问题日益增多,人们对网络上信息安全类内容的关注度也在逐渐增加,因此,需要一种能够有效地组织和分析大量网络信息内容的技术,并在准确提炼出网络信息安全相关的文本后,展示给网络用户。TDT(Topic Detection and Tracking,话题检测与跟踪)技术应运而生,它可以在网络信息流中检测出信息安全类文本中的新话题,还可以对已知安全话题进行持续的信息跟踪,让人们能从整体上了解一个
论文部分内容阅读
网络信息安全问题日益增多,人们对网络上信息安全类内容的关注度也在逐渐增加,因此,需要一种能够有效地组织和分析大量网络信息内容的技术,并在准确提炼出网络信息安全相关的文本后,展示给网络用户。TDT(Topic Detection and Tracking,话题检测与跟踪)技术应运而生,它可以在网络信息流中检测出信息安全类文本中的新话题,还可以对已知安全话题进行持续的信息跟踪,让人们能从整体上了解一个信息安全事件的全部细节,最终使信息更加有效、准确地为用户使用。本文首先介绍了 TDT的相关技术,包括文本分词、文本表示模型、文本特征提取、向量权重计算、相似度计算和文本聚类。然后,本文分析了信息安全类文本不同于传统TDT语料的特点,并针对其特点和相关算法的不足,在文本特征处理阶段改进相关筛选方法和关键词算法,有效地提高了后续文本处理的准确性。基于层次聚类的传统话题检测算法容易出现群聚效应,影响实现效果,因此在层次聚类的基础上,提出并实现了新的话题检测算法,结合了向量加权计算和两步聚类方法,实验表明该算法提高了话题检测的正确率,降低了误测值。传统话题跟踪算法容易出现话题漂移以及在相似度计算时容易出现误差,因此在传统话题跟踪的基础上,提出并实现了新的话题跟踪算法,结合了话题向量模型动态更新和调和平均相似计算的方法,实验表明该算法提高了话题跟踪的正确率,降低了误测值。本文在话题检测和话题跟踪的基础上,实现了热门话题的排序和重要性分析。相关算法实现了按照时间线输出代表性文本,这有助于人们更好地了解和分析热门话题。
其他文献
相较于正常人可以正确感知三维颜色空间的所有色彩,异常视觉患者只能感知到二维颜色空间的色彩甚至只能感知亮度的变化。由于人类获取外界信息中有70%以上来源于视觉感知,因此解决异常视觉患者的问题显得非常重要。目前通过图像处理来提高异常视觉对图像中颜色信息的分辨度已成为主流的适用方法。大多数的研究人员致力于通过传统算法来完成图像的重着色过程,然而传统图像处理算法有一些局限。因此,本文提出基于生成对抗网络的
本文回顾了国内外译者地位的发展历程和国内外译者主体性研究的演变过程,从阐释学理论、操控学派理论、接受美学理论、目的论视角出发探讨了译者主体性的内涵,巩固了译者主体
目的(1)利用原核表达系统构建重组质粒,表达并纯化获得rh FGF5。(2)构建3D培养的真皮乳头模型,检测rh FGF5对真皮乳头的作用及其与雄激素脱发相关性的初步研究。方法(1)利用p ET3a-rh FGF5/E.coli BL21(DE3)p Lys S表达rh FGF5,经CM阳离子交换柱粗分离,肝素柱亲和层析获得rh FGF5。(2)Western Blot法鉴定rh FGF5,并用N
大气中二氧化碳的不断增加,给全世界造成许多环境和生态问题,所以将二氧化碳转化成具有高附加值的化学原料具有十分重要的意义。其中,通过二氧化碳还原得到的一氧化碳,可以进一步用于甲醇合成和费-托合成。此外,CO/H_2比例可调性对于费托反应十分关键。因此,研究人员致力于开发实现二氧化碳高效活化与转化的廉价催化剂。铜基催化剂,因其价格低廉且具有优异的二氧化碳还原性能而被广泛研究,但存在高温下容易团聚、电催
在课堂教学中,学生的注意力是课堂教学效率和效果的保证,是学生积极参与学习过程的关键因素。良好的注意可以让学生很好地感知和认识教材,激发学习兴趣,提高学习效率。词汇教学既是中学英语教学的重点,又是中学英语教学的难点。本文从初中英语课堂学生注意力调查现状入手,结合实验研究,帮助教师深入钻研教材,精心设计课堂教学,吸引学生的注意力,让学生能够集中精力参与学习,省时高效地完成学习任务。本研究以Schmid
作为东部沿海大省,江苏在大力发展旅游、农业、教育等领域的同时,与外部世界的联系也日益密切。为了更好地向世界展现本省风貌,江苏省地方志编纂委员会自2012年起开始组织翻译出版《江苏年鉴》。年鉴属于信息类文本,是系统记录江苏行政区域内自然资源分布情况以及政治、经济、文化、社会等领域发展状况的年度资料。其英译本对于江苏省吸引更多外商投资,外国人了解江苏的人文魅力、发展状况,促进江苏更好更快发展,无疑具有
海洋平台是海洋油气资源开发的基础性设施,对国家实施海洋战略具有重要意义,结构损伤检测与安全评价是其安全作业的重要保障。基于有限元模型修正的结构损伤识别方法因能够确定损伤位置及评估损伤程度等受到广泛关注,但如何建立准确的有限元模型是关键问题。传统方法一般采用模态频率、模态振型作为目标函数,但对于结构庞大的海洋平台结构,因仅能测量低阶频率、振型误差大、在较多修正参数时引起方程非正定,导致修正后的有限元
城市化进程的不断加快,导致下垫面硬化面积日益增加,致使城市区域频频出现“看海现象”。传统道路雨水排放模式以快排为主,强降雨到来时老旧排水管网承受着巨大的考验,大量水
近年来,随着车辆数量和使用频率的大幅提升以及监控设备的广泛应用,车辆再识别作为从监控视频获取车辆信息的重要技术手段之一逐渐成为研究热点。车辆再识别旨在从多个图像来源中查找属于同一目标车辆的样本,本文围绕车辆再识别的三个关键问题进行了较深入地研究,主要内容包括:在基于单帧图像的车辆再识别中,提出了一种融合逻辑斯蒂三元组损失与标签平滑交叉熵损失的损失函数,提高了车辆再识别的精度。在传统三元组损失基础上
近年来,随着经济社会的发展和人口的膨胀,以粮食为代表的农作物种植量不断攀升,相应的农作物秸秆产生量也呈现逐年上升的趋势。而农村生活水平的提高使得农村的能源消费结构发生了巨大改变,以秸秆作为燃料应用的比例已大幅减少,大量的秸秆闲置,农民处理困难,尤其是作为全国粮食生产基地、农业大市的绥化市,每年都有着大量的秸秆资源无法得到有效利用。秸秆综合利用作为防治秸秆焚烧的最有利举措之一,正在受到各级政府的高度