基于Spark的序列数据质量评价

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户：netuu

【摘要】

：

随着序列数据在实际中的广泛应用，序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价，然而这种

【作者】

：

韩超段磊邓松王慧锋唐常杰

【机构】

：

四川大学计算机学院,四川大学华西公共卫生学院,南京邮电大学先进技术研究院

【出处】

：

计算机科学与探索

【发表日期】

：

2017年6期

【关键词】

：

数据质量概率后缀树 SPARK 并行计算 data quality probabilistic suffix tree Spark parallel c

【基金项目】

：

The National Natural Science Foundation of China under Grant Nos. 61572332, 51507084 (国家自然科学基金), the Postdoctoral Science Foundation of China under Grant Nos. 2016T90850, 2016M591890 (中国博士后科学基金), the

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着序列数据在实际中的广泛应用，序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价，然而这种方法难以实现对大规模数据的处理。为解决此问题，提出了基于Spark的序列数据质量评价算法STALK（sequentialdataqualityevaluationwithSpark），并且采用了改进的剪枝策略来提高算法效率。具体地，在Spark平台下，利用大规模序列数据高效建立生成模型，并根据生成模型对查询序列的数据质量进行快速评价。最后通过真

其他文献

耳内镜下取出误入上颌窦内牙断（残）根

在牙拔除术中，断根进入上颌窦窦腔内形成牙源性上颌窦异物是该手术常见并发症。对入上颌窦窦腔内的断根，其处理方法较多，但笔者采用经上颌窦前壁开窗在耳内镜直视下取断根效果满

期刊

上颌窦异物耳内镜牙源性异物

MT1-MMP和FactorⅧ在人脑胶质瘤中表达差异及其意义

目的探讨膜型基质金属蛋白酶-I（MT1-MMP）和FactorⅧ在人脑胶质瘤中的表达及两者之间的关系。方法用免疫组织化学SP法检测45例人脑胶质瘤组织和10例正常人脑组织中MT1-MMP和Fact

期刊

脑胶质瘤膜型基质金属蛋白酶-1FactorⅧ侵袭性外科学Glioma MT1 -MMP Factor Ⅷ Invasion Surge

不同解冻温度和时间对肉牛细管冻精精子活力的影响

[目的]寻找肉牛精子最佳解冻温度和解冻时间。[方法]将54支利木赞公牛细管冻精在不同温度、不同时间下进行解冻,对解冻后的精液品质进行检测。[结果]解冻后精子活率随解冻温

期刊

肉牛冷冻精液解冻温度解冻时间精液质量Beef cattleFrozen semenThawed temperatureThawed timeS

结合用户生成内容与链接关系的社区发现算法

社区发现一直是社会网络研究中的热点内容。但是当前社区发现算法更加关注用户与用户之间的链接关系，而对社会网络中用户生成内容（usergeneratedcontents，ooc）大数据研究较少。用

期刊

社区发现用户生成内容用户链接关系社会网络community discovery user generated contents user link

支撑喉镜下喉显微手术气管插管的麻醉处理

支撑喉镜下喉显微手术时间短,但安置喉镜时窦性心动过缓发生率高,福建省厦门市174医院麻醉科采用1%丁卡因咽喉腔黏膜表面麻醉,收到较好的效果,现报道如下。

期刊

支撑喉镜下喉显微手术麻醉处理

论企业家人力资本运营的特殊性

企业家人力资本在企业运营中具有难以替代、难以监督、难以定价、难以承担即时风险和重大风险的特点。认识企业家人力资本运营的特殊性，并为此设置相应的收益分配方式，有助于充分发挥企业家人力资本的效用，形成科学的法人治理结构，进而实现企业利润最大化。

期刊

企业家人力资本资本运营法人治理结构股票期权计划收益分配方式

道家与中国古代数学与天文学

摘要：道家与古代数学与天文学的关系问题，历来是一个众说纷纭的研究领域。老子与古代数学的关系，主要表现在运用辩证逻辑思维方法去认识事物的数量关系，其对后世的影响也恰恰就在这里。道家与古代天文学的关系，主要表现在对于天体演化和宇宙起源、结构等认识方面。这在老子、庄子、《淮南子》以及近年来出土的郭店楚简《太一生水》中，都有可以值得挖掘的内容。　　关键词：道家；古代数学；古代天文学　　中图分类号：R2

期刊

道家古代数学古代天文学

基于熵权的模糊物元模型在城市人居环境质量综合评价中的应用

基于城市人居环境质量优劣的模糊性和单项指标评价结果的不相容性,在物元分析的基础上,结合模糊集理论和欧氏贴近度概念,建立了城市人居环境质量评价的模糊物元模型,并应用信

期刊

城市人居环境模糊物元模型熵权欧氏贴近度Urban human settlementFuzzy matter-element modelEntropy

第七届中国业务过程管理大会征文通知

第七届中国业务过程管理大会（CBPM2017）由湖南科技大学承办，湖南商学院与湖南财政经济学院协办，将于2017年9月22—24日在湖南湘潭与中国计算机学会服务计算大会同期召开。热忱欢

期刊

业务过程管理征文通知中国服务计算演示系统研究论文工业应用学术成果

关于上海楚简《孔子诗论》释文考释的若干商榷

《上海博物馆藏战国楚竹书》(一)的第一部分《孔子诗论》对于先秦诗学具有重要意义，但本书的整理工作实未能尽善尽美。其中的一个重要原因，是在出土文献与传世本发生文字歧异时

期刊

上海楚简《孔子诗论》释文出土文献整理传世本

基于Spark的序列数据质量评价

其他学术论文