【摘 要】
:
软件众包平台采用公开参与的方式,吸引地理位置分散的开发者众包完成各种类型的软件开发与服务项目。但随着软件众包平台的发展,平台中项目数量的提升导致了开发者不得不花费大量时间从数量巨大、类型繁杂的项目中选择合适自己的项目。需求标注为这一问题提供了一种有效的解决方案。如果平台中每个项目都根据需求被标注了合适的标签,开发者或推荐系统则可以根据标签快速找到合适的项目,同时也有助于开发者快速了解项目要点,提升
论文部分内容阅读
软件众包平台采用公开参与的方式,吸引地理位置分散的开发者众包完成各种类型的软件开发与服务项目。但随着软件众包平台的发展,平台中项目数量的提升导致了开发者不得不花费大量时间从数量巨大、类型繁杂的项目中选择合适自己的项目。需求标注为这一问题提供了一种有效的解决方案。如果平台中每个项目都根据需求被标注了合适的标签,开发者或推荐系统则可以根据标签快速找到合适的项目,同时也有助于开发者快速了解项目要点,提升文本阅读的效率。因此本文研究提出了基于强化学习的软件众包需求标签推荐方法――Tag Rec,根据发包者标签选择记录构建概率模型对发包者对标签的推荐成功概率进行建模,提出并使用基于知识图谱的推荐算法KGR和基于协同过滤的推荐算法PMFR分别生成标签列表,然后提出并使用基于强化学习的排序算法RLR对上述标签进行重排序,推荐排序最靠前的标签作为最终的推荐结果。本文的主要贡献和创新点包括:(1)提出一套通用的概率模型构建方法,用于对发包者选择标签的真实概率做出推断,该模型根据发包者选择标签的记录进行训练和更新。(2)提出了基于知识图谱的标签推荐算法KGR和基于协同过滤的标签推荐算法PMFR。其中KGR利用了知识图谱中丰富的单词资源和单词间的关系进行基于内容的推荐。PMFR采用了协同过滤方法并利用了上述构建的概率模型进行个性化推荐。(3)提出了基于强化学习的标签排序算法RLR,对上述两种推荐算法得到的标签列表根据选择该标签带来的短期回报和长期回报做进一步的排序。其中所用到的概率模型和知识图谱根据发包者对标签的选择反馈进行持续更新。(4)提出了基于强化学习的软件众包需求标签推荐方法Tag Rec,采用KGR算法和PMFR算法进行标签推荐,采用RLR算法对所推荐标签进行排序。最后,为了验证本文所提出算法的有效性,在解放号、猪八戒和Movie Lens数据集上进行了一系列实验。实验结果表明,Tag Rec与基准方法相比,在需求文本推荐标签的准确度指标上取得了5%至10%的效果提升,在多样性和覆盖率提升约4%;KGR算法和PMFR算法在准确度指标上提升了3-5%,多样性指标上与其他对比算法类似,覆盖率上领先约10%;RLR算法在准确率和覆盖率指标上均提升了约5%。
其他文献
三维物体语义理解和旋转不变性特征研究一直是解决许多实际应用的关键性问题。由于现实场景中三维模型所处方位往往不确定,语义分析算法在实际当中的应用面临诸多挑战。同时,语义定义的模糊性导致很难有一个定义的标准能够符合所有人的认知,因此现有的语义相关数据集以及算法存在一定的局限。但是人对于不同物体之间的语义对应关系存在一定的共识,利用对应关系可以一定程度上避免语义定义带来的歧义,从而可以从一个全新的角度促
党的十八大以来,习近平总书记围绕加强国际传播能力建设、增强国际话语权、提升国家形象、提高国家文化软实力和中华文化影响力提出了一系列新理念新思想新战略,成为新时代文化"走出去"战略的理论指导和行动指南。中共中央统筹推动对外文化传播、文化交流和文化贸易,加快了中华文化发扬光大和走出去的历史进程。中国在国际传播能力建设、对外文化交流和对外文化贸易等领域都取得重大成就,大大提高了中国的国际话语权、中华文化
物联网的蓬勃发展和工业4.0的提出推动了现代工厂的智能化与自动化进程,而智能工厂对设备监控技术也提出了新的要求——非侵入式监测。射频识别(Radio Frequency Identification,RFID)技术作为工业中广泛应用的物联网技术,因其无源感知的优点也成为了普适计算领域中代表性的非侵入式感知技术,将其应用到工业新时代的设备监控系统中有着得天独厚的天然优势。为了解决机械设备异常或故障状
自改革开放以来,工业园区作为城市众多产业的空间物质载体,对于促进产业结构调整和产业集聚升级的承载作用显著;与此同时,工业园区也成了环境和安全风险事故的高发地。尤其是在环境保护作为国家重大战略的今天,对工业园区的环境管理问题日益突出,各级政府也陆续颁布了多项政策,推进工业园区的生态环境信息化建设以及工业园区的数字化智能化发展。但目前大多数的园区环境信息化建设与实际的环境管理需求是脱节的,系统仅针对水
软件众包因其开放式利用群体智慧解决问题的特点,在工业界和学术界受到众多关注。近年来,随着软件众包平台的不断发展,其用户量也呈现出高速增长的趋势,如何帮助用户挑选合适自己的服务商及服务,即构建一个优秀的众包服务搜索系统成为了各平台亟需解决的关键问题之一。为解决当前服务搜索系统未能充分利用包括用户评论在内的现有平台数据和未能对搜索结果精确排序的问题,本文提出了基于用户评论的软件众包智能搜索模型。通过对
Unikernel基于库操作系统技术,将单个应用程序与库操作系统组件编译为虚拟机镜像,可直接在KVM等虚拟化平台上运行,具有体积小、性能好、可针对化定制等优势,是一种有吸引力的针对云计算的操作系统设计。但Unikernel的一大缺点是缺乏多进程支持。最主要的原因是Unikernel是单地址空间设计,且运行在单个CPU特权级上。这大大降低了Unikernel的灵活性和适用性。多进程编程模型帮助应用程
近年来,区块链技术的出现和发展,为供应链领域遇到的鉴权和信息协同等方面问题带来极大的改善。供应链依托区块链的范式,采用私有链或联盟链的形式,利用区块链技术信用的易流转、链上信息难篡改、交易透明化等天然优势,逐步走向数字化智能化。目前,供应链领域合同依赖智能合约实现智能替代合同运行在区块链上,主要存在以下三个问题:首先,供应链参与方之间签订的纸质合同由于文本异构性问题,生成智能合约缺乏统一化描述;其
自然语言代码搜索在软件开发中起着重要作用,它允许程序员以自然语言进行查询,并从Internet或源代码库中获取代码片段。但是,在现有代码搜索方法选择和新技术研究时往往存在困难,因为(1)现有代码搜索方法的实现和评估它们的数据集通常是不公开的,无法选择适合当前场景的代码搜索方法;(2)有些代码搜索方法可能会利用训练数据集或辅助数据源,因此如果没有这些数据集/数据源,就无法真正实现搜索方法,并证明其有
近年来,随着深度学习的迅猛发展,自然语言处理已经成为了科学研究的重点领域之一。目前,基于深度学习技术来处理自然语言的研究工作主要集中在知识图谱、机器翻译、问答系统、文本分类等方向,然而关于将深度学习技术应用于自动生成文本摘要的研究工作少之又少。此外,在被称之为“互联网时代”的今天,文本信息的日生产量已然呈现出指数级地爆炸式增长趋势,面对数据量级超乎想象的文本信息,人类不再可能胜任从文本中提炼出其想
日志结构合并树(LSM-Tree)是一种写操作延迟极低的数据库存储结构,在现代数据库中应用越来越广泛。而随着互联网的发展,信息量增长迅速,业务需求也越来越复杂。这不仅要求同一个数据库能支持在线事务处理(OLTP),同时希望数据库能高效处理在线分析处理(OLAP)。这样的数据库叫做混合事务分析处理(HTAP)数据库。要让基于LSM-Tree的数据库支持HTAP,就需要解决其设计存在的两个弊端。其一,