支持虚拟筛选的高性能数据处理技术研究与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:bluesky8013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当代科学研究活动依赖于大量的科学数据及其在网络环境中的共享和处理。基于网络协同科研环境的高性能数据处理技术有着重要的研究意义和迫切的应用需求。虚拟筛选是当前发展最为迅速的药物筛选技术之一,其廉价快速的特点大大改变了现代新药研发流程。虚拟筛选涉及和产生的数据具有数据量庞大、数据结构复杂多样等特点,通过建立高性能的数据处理系统可以大大提高科研效率,方便易用的数据传输和共享管理也可以更好地促进大范围的科研协作。   本文针对虚拟筛选数据量庞大和基于网络的虚拟筛选研究活动特点,研究并实现了基于浏览器的大数据上传技术和数据并行处理技术;针对虚拟筛选数据结构复杂多样的特点,研究并提出了可定制的快速数据抽取模型。取得的主要成果有:设计并实现了基于网络的支持虚拟筛选的高性能数据处理系统(HPDPVS)。HPDPVS系统实现了基于浏览器的大数据上传,可定制的快速的非结构化文本数据抽取,大数据并行处理等功能,同时充分重视了系统的集成性和易用性。本文通过实验对HPDPVS系统在虚拟筛选数据高性能处理方面的有效性进行了检验。目前,HPDPVS系统已经在抗禽流感病毒药物研究的国际合作中得到实际应用。   本文研究并实现的支持虚拟筛选的高性能数据处理技术为进一步提升大数据上传性能、大数据并行处理性能、与其他工具和平台的整合打下了良好的基础,将结合实际应用的情况继续改进和发展。
其他文献
如今Web服务广泛分布于互联网中,它们通过彼此之间的交互实现对问题的协作求解。然而,在交互过程中,一些非预期、“不正常”的信息交互时有发生,严重影响了系统的质量及健壮
射频识别(Radio Frequency Identification,RFID)是一种利用射频信号自动识别目标对象并获取相关信息的技术。由于传统的定位技术不能满足室内定位环境和精度的要求,而RFID技术所
近年来,人们意识到保存Web的重要性,国内外有了保存历史网页的系统,其中北京大学网络实验室研发的Web InfoMall系统已经存储了从2002年至今的中国互联网上超过30亿的网页,在这个
嵌入式SoC有效地降低了系统的功耗、体积和成本,提高了产品的性能价格比和竞争力,是当今嵌入式系统设计技术发展的主流。PCI总线是计算机中普遍使用的通用局部总线,嵌入式SoC中
汉语-盲文转换在盲文出版、盲人教育等领域有重要应用,但当前主要基于人工完成,其过程效率低、成本高,导致盲文读物匮乏,盲人获取信息困难。已有的汉盲自动转换系统在盲文自动分
产品数据管理(Product Data Management,PDM)是一项对产品相关的数据和过程进行集成化管理的技术。随着PDM系统在众多制造企业的实施应用,PDM系统的数据安全也备受关注。用户
最近几年,由于国内教育需求的不断扩大以及教育资源的有限供应使得依托网络的远程教育市场迅速蓬勃发展了起来。而随着参与网络教育学员人数的不断增加,市场竞争的不断加剧,使得
近年来机群系统凭借其良好的扩展性、可用性以及高性价比成为当前高性能计算机的主流体系结构。而由于磁盘性能的提升速度远远落后于CPU、内存以及通信网络带宽的发展速度,从
随着计算机以及网络技术不断发展,软件的运行环境特征逐步由传统的封闭、静态、可控转向开放、动态、难控。普适计算、Internet计算等新型计算范型不断涌现。这种趋势对软件的
存储系统中的缓存系统研究一直是学术界和工业界的研究热点之一。随着当前以SAN为代表的集中式网络存储模式的兴起,现有缓存系统尚不能很好地满足网络存储环境对缓存系统在灵