地方志知识组织及内容挖掘研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:mygd520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪50年代,在著名农史专家万国鼎先生主持下,历时6年多,中国农业遗产研究室从全国各地收藏的6000多种地方志中摘抄并整理出“物产”资料,汇编成431册的《方志物产》,约3000万字,它基本上完整地保存了明、清和民国期间全国各地的物产史料,具有极高的农业科技、经济史料价值。本文将以这套资料为基础,探索方志信息组织的思路和方法。本文首先从方志目录学整理角度出发,主要探讨方志目录类型和志书著录方式、方法,总结我国新旧方志索引工作的成绩和特点;其次,从农史物产史料整理角度出发,对农史物产史料的来源及其整理成果进行探讨和总结。本文的重点是以《方志物产·广东》(即《方志物产》广东部分)为例,首先构建了一个《方志物产》信息系统,探索地方志知识组织和内容挖掘的方法。然后从以从信息系统中获得的有关基本数据,进行物产研究和引书研究。主要研究内容如下:(1)《方志物产·广东》信息系统的设计和构建。该系统主要包括全文数据库、物产索引子系统和引书挖掘及索引子系统等功能模块。全文数据库构建,分析志书的行文格式,提取出能够概括全部来源志书的、规范的物产行文叙述格式,作为全文数据库字段设计的依据。本文设计的全文数据库除具有全文检索这一基本功能外,还有关键词检索、聚类检索和数据统计功能。物产索引子系统,采用模式识别的方法,识别出物产的异名别称,建立物产异名标引词典,与物产正名标引词典一起,构建物产标引词典,用于物产的计算机标引和索引生成。物产索引子系统具有模式维护、异名别称识别、款目库维护、索引生成及浏览四项功能。引书挖掘及索引子系统,采用引书引用模式、引书名称特征模式、人名引用模式,挖掘引书,建立引书标引词典,用于引书的计算机标引和索引生成。引书索引子系统具有引书模式库维护、引书模式识别、款目库维护、索引生成和浏览四项功能。(2)《方志物产·广东》之物产研究,包括物产分布统计和分析、物产分类研究、物产异名别称研究。物产分布统计分析,对《方志物产·广东》中的全部物产数据按历史时期和地域进行统计和分析。历史时期的结果表明:明代每部志书所载物产数量最多,民国其次,清代最少;民国时期平均每部志书篇幅最大,清代其次,明代最小,从明代到清代到民国,志书叙述物产越来越详细。地域的结果表明:从通志到府志到县志,平均每部志书所载物产数按地域面积大小逐步递减;从粤西、珠三角、粤北、粤东,平均每部志书所载物产数按地域位置由西向东逐渐减小。物产的分类研究,对《方志物产·广东》所有来源志书的门目特征和类目特征进行分析和总结,探讨了植物、动物和货物的分类特点、类目设置得失和分类依据,在此基础上拟定一个能够类分所有物产的物产分类体系表,该表设立植物、动物和货物三个一级类目,植物类下设立13个二级类目,动物类下设立14个二级类目,货物类下设立9个二级类目。物产的异名别称研究,对从《方志物产·广东》中辑得的1418条物产异名别称的表达模式,归纳为有别称词、避忌特称、地域特称、文献特称和特殊行业特称等五种,并对其命名来源进行探讨。物产异名别称的表达模式是物产异名别称挖掘的基础。(3)引书研究,包括全部引书数据的统计分析、引书的引用方式研究。全部引书数据的统计分析,主要是针对《方志物产·广东》引用的31670次各类文献,从来源志书角度和引书角度出发,以引用频次为视角进行统计分析。来源志书角度的引书统计分析表明:从历史时期看,明、清、民国三个历史时期的每部志书的引书平均数,都是按时代顺序递增,且民国远高于其他两个历史时期;从地域范围看,引用平均数最高的是记载全省物产的通志性志书;从地域位置看,珠三角地区的引用平均数高于粤西、粤东、粤北。引书角度的引书统计分析表明:诗词歌谣俗谚,引用2141次,其来源有三:岭南本地文人作品、岭外游宦文人作品、岭南当时民间歌谣俗谚;独立成篇的论著,引用29529次,其构成特点是:大量征引以岭南方志为主的岭南地方文献,大量录引反映当时真实物产状况的《采访册》,大量征引中医药文献。引书的引用方式,本文辑录出《方志物产·广东》所有的引书名称引用模式和引用的表达模式。其中,引书名称引用模式有引用文献名称、引用作者姓名和引用作者姓名+文献名称三种,引用表达模式有前标志型、后标志型和封闭型三种。引书名称引用模式和引用的表达模式,是进行引书挖掘研究的依据和途径。另外,本文还以《岭南丛述》(物产)为例进行引书分析,这是针对该著述中除诗词歌谣俗谚以外的独立成篇的论著,以引书种类为视角进行统计分析,主要从历史时期、引用频次、地域、学科等方面,探讨该著述的信息来源及资料结构。总之,本文采用农史史料学、情报学方法和计算机技术,尝试对地方志文献的物产资料进行基于知识内容的整理,意图探索方志知识组织和农史物产史料整理的思路。本文创新之处在于:1.采用模式识别理论和方法,尝试应用于方志这类古代文献,用来识别、挖掘物产的异名别称和方志文献中的引书;2.分析、提取《方志物产》文献内容的行文格式,形成统一、规范的方志物产文献的数据库格式,以期探索基于内容分析的古籍整理方法;3.运用文献计量学方法,分析《方志物产》中的引书,试图探寻农业古籍的内容结构,为农业古籍的“辨章学术,考镜源流”提供量化研究方法。4本文针对方志文献特点,首次构建了《方志物产·广东》信息系统,用于检索方志物产文献全文、生成物产索引和引书索引,以及进行物产异名别称和引书的挖掘研究。但是,本文还存在着一些不足之处,尚待进一步研究:1.物产叙述行文格式的提取是基于人工分析的,格式的规范处理也没有完全实现计算机自动处理。因此,针对方志文献特点,开发行文格式提取和自动处理软件,是今后大规模处理方志史料工作首要解决的问题;2.引书及物产异名别称经模式识别后,尚需经人工判别,没有完全实现自动化。下一步工作是进一步完善识别功能,减少人工干预,增加自动化程度。3.本项研究采用的语料仅限广东方志的物产部分,对于《方志物产》其他省份资料,本文没有涉及,有待今后做出全面系统的物产分析和引书分析。地方志的知识组织方法和方式有多种多样,本文只是选取比较实用的全文数据库、物产索引、引书索引、物产分析和引书分析等几个方面进行研究。地方志是一座“富矿”,本文只是从中挖掘出物产的异名别称和引书,有关物产的其他方面和亡佚图书研究,没有涉猎。此外,方志中还有大量其他史料,亟待发掘。因此,地方志的知识挖掘研究是我们今后努力的方向和研究重点。
其他文献
提出了一种利用机载定位定向系统(POS)数据辅助航空影像进行影像匹配和变化检测的方法。首先利用带POS数据的老影像解求新影像的外方位元素,然后在老立体影像上提取特征点,根据前方交会和共线条件方程得到新影像上同名点的近似位置,再与新影像进行匹配,寻找匹配不好的点作为变化区域的初始位置。以此为基础选择精检测窗口,进行边缘提取和跟踪,并进行链码匹配,最终确定发生变化的区域。试验证实,本文方法是可行的。
目的发现和控制影响部队官兵健康安全的饮水危害因素,为保证官兵饮水安全提供依据。方法采用普查的方法,对北京军区部队自备水源进行水质检测评价,并按所检指标超标频率进行
在传统修辞学中,隐喻只是被当作一种修辞格来看待。随着认知语言学的兴起,隐喻的作用开始获得重新的认识。而在新兴起的认知语言学中,隐喻占据着中心的地位。它被当作一种重
海上交通安全一直是人们非常关注的问题,而风险控制则是安全管理最为重要的组成部分之一。客滚运输作为海上交通风险较高的分支之一,客滚事故时有发生,并常常伴随着严重的人
通过构建保险资金运用质量顺周期模型、数量顺周期模型,采用保险资金运用余额、保险资金运用收益率、资产与负债期限之差、广义货币供应量、全国居民消费物价指数、上证综合
随着越来越多的文档以数字的形式存储在电脑中,加上传统的电子文档具有易拷贝,使用不可控,泄密行为难以追踪等等一系列特性,企业的信息安全遭受到了严峻的考验。对于企业来说
麦克卢汉在《数字麦克卢汉》中为读者搭建了一个人与技术、世界乃至宇宙的关系框架,这在今天看来仍颇具启发。新技术正不断重构与塑造着新的文化、价值观乃至意识形态,成为建构
于千万年之间,在千万人之中,发现另一个“你”,这依靠缘分; 在千百个频道之中,在千万个节目之间,发现这一个“我”,则有赖“识别”……从上个世纪80年代至今,中国电视发展走