科学数据中心建设与服务体系



        数据资源作为重要的战略资源是驱动各领域创新发展的重要因素。随着信息化进程的发展,分布式多源异构数据的管理和应用问题凸显,如何有效地实现分布式数据的管理、整合、服务成为推动科研与应用的共性需求和必要手段。

        中国科学院计算机网络信息中心大数据技术与应用发展部(以下简称大数据部)自“十•五”开始承担中科院“科学数据库及其应用系统”建设工作以来,立足实际需求,面向应用实效,扎实推进标准与系统研制和推广应用工作。从“十•五”面向分布式异构数据资源的规范化统一服务,到“十一•五”数据资源及其应用环境(含国家科学数据共享工程项目“基础科学数据共享网”)建设和服务体系形成,再到“十二•五”响应“海-云”环境和“十三•五”适应大数据环境下科研模式变革的体系完善,大数据部与时俱进推动科学数据中心体系相关标准(55项)、技术、工具(13个)的研制和应用,是我国数据资源管理研究与实践的先锋,为数据资源的开放与共享提供了强劲的源动力。

        当前随着国家《科学数据管理办法》的出台,结合国家建设科学数据中心的战略需求,大数据部提出面向科学数据数据中心体系的全生命周期体系化数据资源管理与服务解决方案。

标准规范体系


        科学数据标准体系基本实现了从数据资源建设到应用及效果评估全生命周期关键内容的规范化,在科学数据资源建设和应用服务中发挥了积极的助推作用。科学数据标准体系可分为指导规范、数据采集与整理、元数据与元模型、系统与接口、数据管理、数据服务等类型,主要内容详见表1。自“十一•五”项目结束以来,在线发布的标准建设成果已被访问下载超过17万次之多,配套工具软件已经在项目内全面推广使用,部分成果(如VDB、MSIS等)还广泛应用到项目之外。

        经过十余年的努力,大数据部的标准工作已经逐步形成了“有需求,多合作,要实用,慎提升”的特点,工作中与院内外合作机构建立了良好的关系,并谨慎的将有应用前景的标准提升为国家标准、国际标准,先后作为第一责任单位完成了《生态科学数据元数据(GB/T 20533-2006)》、《信息技术 数据溯源描述模型(GB/T 34945-2017)》、《信息技术 科学数据引用(GB/T 35294-2017) 》和CODATA国际标准《天然气水合物描述语言(Gas Hydrate Markup Language)》、以第二责任单位完成了《检测资源信息共享体系建设指南(GB/Z 27414-2012 )》和《土壤科学数据元数据(GB/T 32739-2016)》。详见表2。


表1 科学数据标准体系及主要内容

标准类型 标准名称 主要内容
指导规范 主题数据库建设规范 本规范定义了主题数据库的总体架构,规定了主题数据库在内容组织、技术实现方面需要完成的工作,并提出了主题数据库在运行维护和服务方面的要求。
专题数据库建设规范 本规范定义了专题数据库的总体架构,规定了专题数据库在内容组织、技术实现方面需要完成的工作,并提出了专题数据库在运行维护和服务方面的要求。
参考型数据库建设规范 本规范定义了参考型数据库的总体架构,规定了参考型数据库在内容组织、质量控制和技术实现方面需要完成的工作,并提出了参考型数据库在运行维护和服务方面的要求。
专业数据库建设规范 本规范规定了专业数据库在资源建设、内容组织、质量控制和技术实现方面需要完成的工作,并提出了专业数据库在运行维护和服务方面的要求。
数据采集与整理 学科领域数据处理和加工规范 本规范提出科学数据资源采集加工过程的规范化要求,包括对组织管理、文档要求、数据约定和数据采集加工流程要求等。
地学领域数据处理和加工规范 本规范明确了地学领域数据资源加工对象、数据资源加工的内涵、数据资源加工模型、加工流程、加工技术方法和数据资源加工质量评价,并列举若干数据资源加工的算法模型和部分应用实例。
中国湿地数据库数据资源采集与整理指南 本规范明确了中国湿地数据库数据采集和更新的主要过程。
海岸带环境遥感数据库数据资源采集整理工作指南 本规范明确了海岸带环境遥感数据库各子库的数据采集整理过程。
化学主题数据库数据资源采集整理工作指南 本规范明确了化学主题数据库的数据来源以及数据采集和更新过程。
人地系统主题库数据资源采集与整理工作指南 本规范明确了人地系统主题数据库的数据采集加工以及采集加工过程中的质量控制。
冰雪冻土环境本底与可持续发展专题数据库数据资源采集整理工作指南 本规范明确了冰雪冻土环境本底与可持续发展专题数据库的数据资源集成与管理要求。
地球化学研究数据库数据采集规范 本规范明确了地球化学数据库建设(属性数据库和空间数据库两个主要部分)以及相关的数据处理工作。
中国陆地生态系统数据资源采集与整理工作指南 本规范明确了中国陆地生态系统数据资源采集的方法和整理方法。
资源环境遥感主题数据库数据资源采集整理工作指南 本规范明确了资源环境遥感主题数据库的数据来源和数据采集整理的一般方法。
东北植物与生境数据库数据资源采集整理工作指南 本规范明确了对经典书籍和传统文献资料的数字化方法、物种与生境专项调查所采用的方法和工作流程,以及采集数据的标准格式及其说明,并规定了数据的交流和共享标准。
空间科学主题数据库数据整合管理规范 本规范明确了空间科学主题数据库各子课题的数据整合管理。
动物主题库数据采集整理工作指南 本规范明确了中国动物主题数据库收集、整理及入库的方法及规范。
元数据与元模型 元数据参考模型 本规范规定了元数据研制和应用的流程模型,特别是元数据的格式、语义、语法、注册、一致性测试和评估完善等,以及基于不同元数据方案的数据之间的互相访问、内容交换和整合集成。
数据集核心元数据 本规范规定了元数据应用所需要的最小元数据元素,以及为满足各学科领域的特殊需求,对元数据进行扩展和制定元数据应用方案的规则和方法。
人地系统主题数据库元数据 本规范定义了完整描述一个具体对象时所需要的数据项集合、各数据项语义定义和著录规则等。它提供了有关地球系统科学数据的标识、内容、分发、数据质量、数据表现、参照、数据模式、图示表达、扩展、限制和维护等信息。
农田土壤肥力数据标准 本规范定义了一个描述农田土壤肥力数据管理的概念模型,规定了构成该模型的一组必选的、条件必选的和可选的数据元子集、数据实体和数据元素,提供了对该模型的形式化描述。
系统与接口 元数据访问服务接口规范 本规范规定了元数据访问服务接口采用的协议、连接方式、调用参数以及数据的返回格式。
VDBi接口规范 本规范定义了进行数据资源服务的专用术语、访问流程、安全策略、交互方式、请求参数及接口规范。
数据跨域互操作技术规范 本规范规定了数据跨域互操作接口采用的协议、连接方式、调用参数以及数据的返回格式。
跨域用户认证接口规范 本规范规定了跨域用户认证接口采用的协议、连接方式、调用参数以及数据的返回格式。
用户统一认证接口规范 本规范规定了各应用用户统一认证接口采用的协议、连接方式、调用参数以及数据的返回格式。
数据管理 资源唯一标识规范 本规范规定了资源唯一标识符的编码格式、编码规则、编码分配、管理、维护与使用。
科学数据分类规范与分类词表 本规范定义了科学数据的分类方法,说明如何将科学数据分类组织为科学数据的目录,并规定了如何将科学数据映射至科学数据目录中。
数据加工增值管理方法 本增值管理办法规定了数据加工的人员对象、加工机制、权利与义务、加工合作、增值服务、奖惩等。
建库技术指导规范 本规范主要从关系数据库的命名、关系和结构以及建设过程等几个方面明确了数据库设计应遵循的规范。
技术文档参考规范 本规范明确了《数据库需求说明书》、《数据库元数据需求规格书》、《数据库设计说明书》、《数据库软件概要设计说明书》、《数据库软件详细设计说明书》、《数据库软件开发卷宗》、《数据库运行维护记录》共7份主要数据库开发文档模板。
数据质量管理规范 本规范阐述了数据质量管理的框架,包括数据产生阶段的数据质量管理与控制、数据整编阶段的数据质量描述、数据共享阶段的数据质量评价。
数据质量评测方法与指标体系 本规范明确了数据(资源)质量评测的一般方法与数据质量指标体系的建立方法。
共享服务评价指标体系 本规范明确了共享服务评价模型、评价指标体系、评估结果的反馈、评估实施的原则和操作办法等。
数据托管存储管理办法 本管理办法主要规范了数据托管与存储、数据资源中心、数据托管存储用户、费用、责任免除等。
数据共享办法 本共享办法主要规范了管理与共享机制、科学数据分级、科学数据发布与共享、科学数据集中、科学数据集成管理与分发、用户分级、数据使用与产权保护等。
基础设施协同运行技术规范 本规范规定了协同运行服务内容,规定了各项服务,包括CIFS服务、FTP服务、NFS服务、存储故障处、网络故障处理等的服务范围、服务内容和管理流程的规范化政策约定。
基础设施协同运行服务规范 本规范规定了协同运行运维中心机房的服务内容,规定了服务目录及其各项服务,包括机房参观申请、门禁授权服务、外部人员出入管理等的服务范围、服务内容和管理流程的规范化政策约定。
数据服务 数据库服务网站建设指导规范 本规范明确了主题数据库、参考型数据库、专题数据库、专业数据库的服务网站建设过程中的各项工作内容,包括网站栏目设计、功能规划、技术实现、管理和安全等。
数据服务指导性规范 本规范明确了数据服务的模式、内容和方式,主要包括基于数据服务网站的数据发现、导航和定阅推送,通过专业人员实现虚拟咨询和专家数据服务,以及授权的在线分发和离线分发。
海量存储设施运维与服务规范 本规范从数据中心机房、网络接入系统运行、局域网系统运行、服务器及存储系统运行、网络系统安全、数据库、应用系统、公共支持等方面规范化了管理与维护,确保整个海量存储设施所有应用和设备的运行正常稳定、安全可靠。
语义查询扩展 本标准描述了基于本体概念对数据集元数据查询进行扩展的方法,包括词语—概念相关度词典的构建、概念间相关度计算、查询—概念相关度计算和基于语义概念的元数据查询相关度计算方法。
本体适用性评估 本规范定义了一套基于指标的本体评价体系,内容包括本体结构层次、本体组织功能层次、本体共享管理层次和本体应用服务层次,它们共同涵盖了影响本体构建和应用的各方面内容,并根据侧重点的不同,每项指标被赋予了不同的权重系数。


表2 参与完成的国家标准列表

序号 国家标准名称 国家标准号
1 生态科学数据元数据(第一完成单位) GB/T 20533-2006
2 检测资源信息共享体系建设指南 (第二完成单位) GB/Z 27414-2012
3 科技平台 元数据注册与管理 GB/T 30524-2014
4 科技平台 资源核心元数据 GB/T 30523-2014
5 科技平台 一致性测试的原则与方法 GB/T 31071-2014
6 科技平台 服务核心元数据 GB/T 31073-2014
7 土壤科学数据元数据(第二完成单位) GB/T 32739-2016
8 信息技术 科学数据引用(第一完成单位) GB/T 35294-2017
9 信息技术 数据溯源描述模型(第一完成单位) GB/T 34945-2017
10 信息技术 大数据 术语 GB/T 35295-2017
11 信息技术 数据交易服务平台 交易数据描述 GB/T 36343-2018
12 信息技术 数据质量评价指标 GB/T 36344-2018

工具与技术体系


         面向科学数据中心体系化、系统化建设及管理的需求,大数据部研发重点包括分布式数据资源自主管理与服务,数据资源集成整合管理与服务,数据资源与服务监控、统计分析及评估管理,数据资源统一发布、共享、服务及应用等。同时面向不同类型数据提供数据资源管理,并提供统一的管理和外延服务。



目前大数据部已经服务和正在研发的工具集如下表:

表3 科学数据管理与服务工具体系建设列表

序号 工具名称 功能描述 访问地址/上线时间
1 课题数据宝—TeamDR 面向科研团队专属数据管理、共享服务工具。 http://www.teamdr.cn
2 可视化数据管理与发布平台-VDB 一个数据管理者管理和发布关系型数据库和文件系统的工具 http://www.vdbspace.cn
3 科学数据服务监控统计系统 对分布式数据服务网站的运行、访问、下载情况进行监控和统计分析。 http://msis.csdb.cn
4 科学资源与服务注册系统 实现分布式数据库服务资源分类在线汇交注册与审核发布。 http://rsr.csdb.cn
5 科学数据咨询服务系统 用户在线咨询调度支撑平台。 http://drs.csdb.cn
6 科学数据服务效果评测系统 通过对科学数据库相关的服务进行定量与定性指标的采集,有效地实现各数据库系统服务效果的监控与评估。 http://sees.csdb.cn
7 用户统一认证系统 科学数据平台统一登录认证系统。 http://auth.csdb.cn
8 数据在线可视化工具-DVIZ 十余种模型定制化在线可视化服务。 http://www.dviz.cn/dviz
9 分布式多源异构数据资源汇聚传输工具 实现可定制的多源分布式关系型、文件型数据在线传输汇聚及管理,构建集中式存储的数据资源池。 研发中,计划2019年4月上线
10 集中式数据管理与定制化融合发布工具 实现中心端数据资源在线管理及定制化融合发布管理,支持发布门户的展示。 研发中,计划2019年4月上线
11 数据资源共享发布服务门户系统 实现共享发布数据资源的在线发现、获取、访问与共享服务。 研发中,计划2019年5月上线
12 大数据软件栈快速弹性部署和管理工具-packone 支持常用大数据软件栈(Hadoop、Spark、NiFi、Piflow、Kylin、Flink、MangoDB、Redis、Neo4J等)的快速弹性部署、集中监控和配置。 研发中,计划2019年4月上线
13 科学大数据云分析服务系统 IAnalysis 基于容器技术,应用底层的数据和算法资源,通过在线编程分析(iJupyter)组件或工作流应用(iWorkflow)组件进行数据分析服务;可以独立定制安装或者试用公共服务。 http://www.gscloud.cn/analysis/index

优势总结如下:

        1、体系化的解决方案。采用体系化的设计理念,提供自顶向下的总体设计,协同策略、系统、规则、设施等各方面,保障数据资源高效、安全、可靠、敏捷的管理与服务。

        2、完备的服务平台和软件体系。提供包括集成化数据服务、数据资源的监控与管理、数据资源的整合、分布式数据资源的自主管理在内的数据资源管理、整合与服务平台及完备的软件体系,并可为个性化需求提供定制和支持。

        3、统一的管理和外延服务。基于标准化的数据资源管理机制,提供一整套有效的管理办法,并提供包括数据库建设、系统运维、服务咨询在内的多项外延服务。

        4、丰富的建设经验。30年来,为中科院各科研单位的数据资源建设与服务有效助力,在地理、生态、环境等领域深入探索,为60多家科研单位提供服务。重点负责了国家生态系统研究网络体系建设、国防资源服务体系建设,为相关领域科研信息化建设,提供了体系架构、系统设计、开发、服务一体化的建设方案。

        联系方式:  liufeng@cnic.cn