【摘 要】
:
数据源中存储了建立数据连接的所有信息,数据请求者通过提供正确的数据源名称来查找相应的数据库连接,以此获取数据库中的数据信息。在网络中,数据源内容主要存储在可受限搜
论文部分内容阅读
数据源中存储了建立数据连接的所有信息,数据请求者通过提供正确的数据源名称来查找相应的数据库连接,以此获取数据库中的数据信息。在网络中,数据源内容主要存储在可受限搜索的在线数据库中,这些数据库根据定向请求动态生成返回结果。因此,人们在网络中获取数据时,基本都是通过向搜索接口发送请求,服务器和在线数据库响应请求来返回相关结果的。通过接口请求而获取到数据信息的工具称之为搜索器,传统的搜索器在对网络进行数据搜索时只能搜索到静态页面的内容,而隐藏在网络接口背后的数据源却很难被搜索到,这就使得那些主题专一、结构良好的数据不能很好地被利用。本文对现有的数据源集成相关方法进行分析,提出了主题相关的数据源发现与分类的方法,主要研究内容包括:(1)提出了一种适用于数据源发现的HEF模型。该模型通过元素标签之间的映射关系来构造表单表示,结合外部知识实现数据源发现。针对元素标签特征提取过程中存在的特征差异性问题,提出了一种基于外部知识的短语主题模型,该模型通过利用预先定义的相关知识来扩展特征。(2)提出了一种适用于数据源分类的Skip-PTM模型。该模型通过挖掘数据源信息的隐含语义来提高数据源分类的准确性。为了提取数据源中潜在的语义特征,本文将原来的使用词向量预测上下文词转变为使用上下文向量来预测上下文词。针对数据源主题变迁问题,本文将数据源信息离散到不同的时间窗口,通过计算各时间窗口中主题分布来挖掘数据源主题的变迁。(3)根据所提出的算法与模型实现了基于主题的数据源智能集成系统。用户可以配置模型参数与个性化训练模型,然后通过选择模型来实现数据源的自动发现与分类。除此之外,该系统可实现智能集成下的自动分析任务,将模型的训练过程、数据源的主题变迁等信息可视化展现。
其他文献
地方志是在一定时期内全面记录某个地区的社会、政治、自然、经济和文化方面内容的公共文化产品,地方志工作属于政府公共文化服务工作中的一部分,承担存史、资政、教化、育人的功能。我国社会处于经济发展转型新时期,传统的地方志工作模式已无法满足社会对公共文化服务的要求。因此,我们需要对地方志工作如何提供高水平的公共文化服务做进一步的探索和实践,以便更好的服务社会发展。本文从建立公共文化服务平台的角度对地方志工
当前,我们经济社会正发生的巨大的变化,随着发展的不断加快,各类社会矛盾日益凸显。在此背景下,传统的社会治理模式已不能适应当前的新形势、新问题,亟待进行创新。针对这一
气动肌肉关节能模仿动物关节运动特性,具有本质柔顺性,可增强四足机器人环境适应能力,但气动肌肉关节转动范围小,关节力矩难以测量与控制,限制了四足机器人的运动能力。具体
车载自组织网络(Vehicular Ad-hoc Networks,VANETs)作为智能交通系统的重要组成部分,为解决道路通行效率和车辆安全行驶等关键问题提供了灵活且快速的数据传输支持。然而,车
随着时代发展,汽车在我们的生活中越来越普及,随之由汽车导致的交通事故量也迅速增加,而事故发生最主要原因是由驾驶人员的不良习惯与违法操作所导致。其中车辆压线是最为常
视觉检索任务(Visual Grounding,VG)的目的在于通过一句自然语言的查询,去定位一张图像中与该查询语句最相关的物体或区域。通常来说,为了完成这一任务,我们需要一个模型去理
光学乐谱识别主要研究如何将乐谱图像形式到计算机可识别语义符号。其中谱线删除是重要模块之一,谱线删除算法的优劣直接影响光学乐谱识别系统的最终结果。特别是手写乐谱图像,由于手写音符形式复杂多变,同时叠加各种变形和噪声,使谱线识别和删除尤为困难。因此,研究手写乐谱图像中的谱线删除具有重要的理论意义和实用价值。为了提高谱线删除算法的鲁棒性,本文提出一种基于多尺度多方向局部二值模式和XGBoost的手写乐谱
“十二五”期间,我国的污染物虽然完成了总量减排目标,但是当前的社会、经济的高速发展依然是建立在消耗环境资源的基础上,减排工作任重而道远。为了环境、经济的协调发展,需
在信息技术和互联网技术日新月异以及网络社交软件快速普及的今天,数字图像已经成为人们日常生活中重要的信息载体。然而,在实际工程应用中,由于拍摄设备、拍摄环境、传输处