论文部分内容阅读
摘 要:在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。档案元数据是对档案内容及档案管理过程中产生数据的描述,它不是档案本身,它是各类数据的集合,是描述档案属性、特点和状态的数据。本文现就数字档案馆档案元数据模型做简要讨论。
关键词:档案馆 档案管理 元数据 电子文件
一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。目前,元数据这一术语实际用于各种类型信息资源的描述记录。
一、系统元数据项的组成
档案馆描述档案及档案业务的元数据集合主要包括档案基本元数据集、档案管理元数据集和档案业务处理元数据集和档案业务处理元数据集三大部分。
1、档案基本元数据集。档案基本元数据集是用以描述档案内容的基本属性,主要包括文号、题名、时间、责任者、页数、备注,这是档案馆在接收档案进馆时从立档单位获得的元数据信息。
2、档案管理元数据集。档案管理元数据集是为了档案管理、保存和提供利用的需求而确定的数据集,主要包括立档单位、件号(顺序号)、档号、全宗、类目、保管期限、保管级别、密级、存址(库房位置、电子文件的URL)、载体、检索(信息分类)等。
针对案卷保管方式,又可添加案卷级管理元数据集,主要是增添案卷号、案卷题名、起止时间、页数、件数,用以描述卷内文件(档案)的基本状况。
3、档案业务处理元数据集。档案业务处理元数据集是描述各档案管理业务过程中产生各种信息的数据集,如接口处理的责任链信息、工作过程产生的与档案密切相关的过程信。它主要包括档案的接收、分类、排列、编号、编目、入库、上架、库房管理、保护处理、数字化处理、缩微处理、开放处理、利用信息、销毁处理等工作的时间、责任者、处理的相关信息等。这些元数据集记录了档案工作全过程的信息。
二、档案信息的数据库模型
档案目录数据库的主要内容包括档案的基本数据和管理元数据,目录数据库是用户查询和检索档案信息的入口,用户通过目录数据能够访问到档案馆工作人员在开展档案管理过程中形成的各种过程数据库信息,同时也可以访问档案内容的图案、多媒体对象数据库和文本数据,查看档案的原始内容。
另外档案馆内部的信息库将分为涉密档案数据库、内网档案数据库和互联网网上开放档案数据库三大部分,由于保管和利用方式的限制,涉密档案需要单独建立数据库,实行物理隔离。内网档案数据库包括开放档案的全部信息,单位了确保档案利用过程中的安全性,往往将开放档案信息迁移到与内网档案数据相分离的另外一个网络存储设备上。
系统数据库是AMIS系统实现过程中为了完成整个系统的功能而建立的一些必要的致辞系统正常的数据库,它在系统实现和运行过程中其支撑和桥梁作用。
三、过程模型
檔案工作的业务流程是业务与业务之间的衔接、传递、转移的动态过程,是为了完成档案全过程管理而开展的一系列活动。业务流程的发生可能在档案馆内部各部门之间,也可能发生在移交单位与档案馆之间、档案馆与档案利用者之间。有业务流程存在的地方就会有档案信息的输入、输出等数据处理过程的存在。档案工作的业务流程与数据流程就像一对孪生兄弟随着档案工作的开展成对出现。
1、数据采集。
数据采集主要是指有新的档案条目记录和新的数字档案内容的增加,主要工作集中于现行文件与档案的接收、征集、数字化处理等业务部门,不同的业务工作其采集的方法也所区别,概况起来主要包括以下几个方面。
(1)手工著录。对于没哟机读目录的档案和文件,档案馆工作人员录入描述档案对象内容的目录信息。如征集的档案、数字化处理的档案需要进行人工信息录入,并根据需要挂接原文信息。
(2)数据导入。接收到以磁盘、光盘等介质促成南湖的目录信息和原文信息,可以考虑借助于计算机实现数据的自动导入处理功能。前提是必须做好数据之间的匹配对应关系。
(3)网络粗函数。对于网络形式提交的文件与档案可以自动实现信息的采集,必要时可考虑人工干预,前提是预先约定好统一的信息交换标准和文件上传格式与规范等。
(4)自动捕获。自动捕获主要用于对行政规范性文件的信息获取过程,针对各个主题开发专门的应用程序,实现信息的自动采集。采集到的信息也需要进行人工干预,浅谈是明确采集规则,随时调整预先定义的规则库。
2、数据处理。
数据采集获得进馆前文件与档案的基本描述信息和档案内容,接下来是进行数据处理,数据处理工作主要包括以下几个方面。
(1)档案著录信息的核对。为降低手工录入的错误率,往往在信息采集功能基础上,采取双重录入的错误率,往往在信息采集功能基础上,采集双重录入并借助计算机进行自动核对,加强信息采集的准确度。
(2)馆藏数字化处理。它包括粗加工和深加工两部分。粗加工是将传统介质的档案转变为数字形式的图像文件或多媒体信息;细加工是再次从中获取文本信息,以提供全文的检索服务。数字化处理过程中将产生档案内容的双重信息,都需要与档案露珠信息实现一一对应与挂接处理。
(3)管理过程信息的即在。管理过程信息是档案馆在内部管理的业务过程中不断完善和更改的工作过程记录,主要是指对档案目录信息的完善过程,如档案鉴定、移交、整理、保管(降密、降期、转库等)、缩微、数字化、开放、保护、转出、整理、销毁等业务过程中产生的信息,包括处理时间、责任者、处理方式等相关信息。管理过程信息将随着档案业务管理的过程而不断产生,并保存每个处理过程的原始记录。
管理过程虚拟的维护分为两部分,一部分由系统自动生成(如责任者、时间等),一部分由业务工作者手工录入(处理相关信息)。系统自动生成的部分原则上不允许修改,这样就能保证真实的责任链信息,可以用以检查和统计工作量,也可以用来追查责任。
(4)加密处理。为了确保安全,需要对重要的档案信息进行加密,特别是对保密档案不仅要实行物理隔离,而且需要采取更安全的措施防止泄露。
(5)数据整合。将档案馆收集到的各类信息以及所有业务过程产生的信息进行整合,实行统一管理。如将接受的电子档案信息和馆藏档案数字化获得的信息与档案管理过程中形成的各科类信息进行整合,实现集成化的管理。
四、结束语
在数字档案馆的建设中,档案元数据的建立与维护至关重要。由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
关键词:档案馆 档案管理 元数据 电子文件
一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。目前,元数据这一术语实际用于各种类型信息资源的描述记录。
一、系统元数据项的组成
档案馆描述档案及档案业务的元数据集合主要包括档案基本元数据集、档案管理元数据集和档案业务处理元数据集和档案业务处理元数据集三大部分。
1、档案基本元数据集。档案基本元数据集是用以描述档案内容的基本属性,主要包括文号、题名、时间、责任者、页数、备注,这是档案馆在接收档案进馆时从立档单位获得的元数据信息。
2、档案管理元数据集。档案管理元数据集是为了档案管理、保存和提供利用的需求而确定的数据集,主要包括立档单位、件号(顺序号)、档号、全宗、类目、保管期限、保管级别、密级、存址(库房位置、电子文件的URL)、载体、检索(信息分类)等。
针对案卷保管方式,又可添加案卷级管理元数据集,主要是增添案卷号、案卷题名、起止时间、页数、件数,用以描述卷内文件(档案)的基本状况。
3、档案业务处理元数据集。档案业务处理元数据集是描述各档案管理业务过程中产生各种信息的数据集,如接口处理的责任链信息、工作过程产生的与档案密切相关的过程信。它主要包括档案的接收、分类、排列、编号、编目、入库、上架、库房管理、保护处理、数字化处理、缩微处理、开放处理、利用信息、销毁处理等工作的时间、责任者、处理的相关信息等。这些元数据集记录了档案工作全过程的信息。
二、档案信息的数据库模型
档案目录数据库的主要内容包括档案的基本数据和管理元数据,目录数据库是用户查询和检索档案信息的入口,用户通过目录数据能够访问到档案馆工作人员在开展档案管理过程中形成的各种过程数据库信息,同时也可以访问档案内容的图案、多媒体对象数据库和文本数据,查看档案的原始内容。
另外档案馆内部的信息库将分为涉密档案数据库、内网档案数据库和互联网网上开放档案数据库三大部分,由于保管和利用方式的限制,涉密档案需要单独建立数据库,实行物理隔离。内网档案数据库包括开放档案的全部信息,单位了确保档案利用过程中的安全性,往往将开放档案信息迁移到与内网档案数据相分离的另外一个网络存储设备上。
系统数据库是AMIS系统实现过程中为了完成整个系统的功能而建立的一些必要的致辞系统正常的数据库,它在系统实现和运行过程中其支撑和桥梁作用。
三、过程模型
檔案工作的业务流程是业务与业务之间的衔接、传递、转移的动态过程,是为了完成档案全过程管理而开展的一系列活动。业务流程的发生可能在档案馆内部各部门之间,也可能发生在移交单位与档案馆之间、档案馆与档案利用者之间。有业务流程存在的地方就会有档案信息的输入、输出等数据处理过程的存在。档案工作的业务流程与数据流程就像一对孪生兄弟随着档案工作的开展成对出现。
1、数据采集。
数据采集主要是指有新的档案条目记录和新的数字档案内容的增加,主要工作集中于现行文件与档案的接收、征集、数字化处理等业务部门,不同的业务工作其采集的方法也所区别,概况起来主要包括以下几个方面。
(1)手工著录。对于没哟机读目录的档案和文件,档案馆工作人员录入描述档案对象内容的目录信息。如征集的档案、数字化处理的档案需要进行人工信息录入,并根据需要挂接原文信息。
(2)数据导入。接收到以磁盘、光盘等介质促成南湖的目录信息和原文信息,可以考虑借助于计算机实现数据的自动导入处理功能。前提是必须做好数据之间的匹配对应关系。
(3)网络粗函数。对于网络形式提交的文件与档案可以自动实现信息的采集,必要时可考虑人工干预,前提是预先约定好统一的信息交换标准和文件上传格式与规范等。
(4)自动捕获。自动捕获主要用于对行政规范性文件的信息获取过程,针对各个主题开发专门的应用程序,实现信息的自动采集。采集到的信息也需要进行人工干预,浅谈是明确采集规则,随时调整预先定义的规则库。
2、数据处理。
数据采集获得进馆前文件与档案的基本描述信息和档案内容,接下来是进行数据处理,数据处理工作主要包括以下几个方面。
(1)档案著录信息的核对。为降低手工录入的错误率,往往在信息采集功能基础上,采取双重录入的错误率,往往在信息采集功能基础上,采集双重录入并借助计算机进行自动核对,加强信息采集的准确度。
(2)馆藏数字化处理。它包括粗加工和深加工两部分。粗加工是将传统介质的档案转变为数字形式的图像文件或多媒体信息;细加工是再次从中获取文本信息,以提供全文的检索服务。数字化处理过程中将产生档案内容的双重信息,都需要与档案露珠信息实现一一对应与挂接处理。
(3)管理过程信息的即在。管理过程信息是档案馆在内部管理的业务过程中不断完善和更改的工作过程记录,主要是指对档案目录信息的完善过程,如档案鉴定、移交、整理、保管(降密、降期、转库等)、缩微、数字化、开放、保护、转出、整理、销毁等业务过程中产生的信息,包括处理时间、责任者、处理方式等相关信息。管理过程信息将随着档案业务管理的过程而不断产生,并保存每个处理过程的原始记录。
管理过程虚拟的维护分为两部分,一部分由系统自动生成(如责任者、时间等),一部分由业务工作者手工录入(处理相关信息)。系统自动生成的部分原则上不允许修改,这样就能保证真实的责任链信息,可以用以检查和统计工作量,也可以用来追查责任。
(4)加密处理。为了确保安全,需要对重要的档案信息进行加密,特别是对保密档案不仅要实行物理隔离,而且需要采取更安全的措施防止泄露。
(5)数据整合。将档案馆收集到的各类信息以及所有业务过程产生的信息进行整合,实行统一管理。如将接受的电子档案信息和馆藏档案数字化获得的信息与档案管理过程中形成的各科类信息进行整合,实现集成化的管理。
四、结束语
在数字档案馆的建设中,档案元数据的建立与维护至关重要。由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。