档案之窗-综合管理
点击加入->档案管理交流QQ群(708132784):
档案主题法表标签
2018-07-19  浏览:134

档案主题法表标签

一、档案主题法的原理

() 构成原理

档案主题法, 是以规范化的自然语言作为检索标识来表达档案主题概念的一种检索语言, 其表现形式是档案主题词表。档案主题词表是进行档案主题标引的依据, 它是将档案主题概念转换成主题标识、编制主题目录、主题索引及建立计算机主题文档的重要工具。档案主题法的构成原理是:

(1 ) 按档案论述和涉及的主题及事物集中档案材料;

(2 ) 用规范化的自然语言语词作标识来直接表达档案主题概念;

(3 ) 用参照系统间接显示概念之间的关系;

(4 ) 用字顺序列对档案信息进行系统化组织, 提供按字顺主题检索档案的途径。

主题法系统分为标题法、单元词法、叙词法几种, 目前以叙词法最为流行。档案主题法采用的是叙词法的原理, 它是一种组配型的检索语言。1988 年编制出版的《中国档案主题词表》就是一部档案叙词表, 也是中国第一部通用的档案主题词表。

() 叙词组配

叙词法的基本原理是概念组配, 即采用概念分析与综合的逻辑方法, 将复杂概念分解为几个表达简单概念的语词收录到叙词表中, 标引检索时用叙词的组配来表达复杂主题概念, 当某些概念分解后会产生歧义时就直接用词组来表示。叙词组配有下面几种形式。

(1 ) 同级词组配。所谓同级词, 指表达相同性质概念的叙词。在两个或两个以上具有交叉关系的同级词之间进行的组配,称作同级词组配, 也叫交叉组配。同级词组配的结果, 可以形成一个新概念。

(2 ) 方面词组配。这是在一个表示事物的叙词和表示事物某一属性、某一方面的叙词之间进行的组配, 也称限定组配。方面词组配的结果也可形成一个新概念, 这种组配方式在叙词组配中应用最广。

(3 ) 关系词组配。这是在两个或两个以上具有密切联系的叙词之间进行的组配, 其结果并不形成一个新概念, 只是反映了参加组配的叙词之间的联系, 也称联结组配。例如: 图书馆学- 关系- 档案学。这是一种比较特殊的组配形式。

叙词组配有下列作用:

(1 ) 可以控制词汇量, 缩小词表篇幅。

(2 ) 可以充分表达档案主题, 提高标引专指度。

(3 ) 可以进行多途径检索和精确检索, 自由扩大、缩小和改变检索范围。

(4 ) 可以及时反映新事物、新概念。

(5 ) 适应计算机检索的需要。

() 词汇控制

所谓词汇控制, 是指对大量的自然语言词汇进行压缩、优选和规范化处理的过程。叙词法选用表达文献主题概念的自然语言语词作标识, 在选词过程中进行了严格的词汇控制。

1 . 词量控制

自然语言词汇量巨大, 如果不加选择地采用, 必然会给档案信息的存储、组织和检索带来困难, 因此, 须对自然语言词汇进行压缩和精选, 只将档案标引和检索所需要的词汇精选出来加以系统组织和排列, 对那些使用频率过低的词汇予以删除或合并。词量控制的手段除了对词类和词形进行控制外, 还有下面几种:

(1 ) 建立一套完备而精练的核心词汇。核心词汇应是各学科专业所通用的基本词汇, 应相当完备, 使得绝大部分档案标引和信息组织不致发生困难; 同时又要相当精练, 要将不常用的词压缩至最低限度。

(2 ) 控制专指度。专指度指档案主题法的标识与档案主题概念的相符程度。专指度过高的词使用频率较低, 可将它们合并到其上位词中, 以减少词汇量。

(3 ) 控制先组度。先组度指表达专指概念的复合词( 先组词) 在整个叙词词汇中所占的比例。词汇中收录的复合词越多,其先组度越高, 词汇量也随之增大。叙词法作为组配型检索语言, 既选用了表达简单概念的单词( 后组词) , 也收入了相当数量的表达复杂概念的词组( 也称复合词、先组词) , 同一复杂概念, 是选用复合词, 还是用单词组配表达, 是叙词法中须解决的问题。一般来说, 凡是用单词组配能准确表达不会产生歧义的概念, 都应选用单词, 而下列情况则须用复合词:

① 当组配表达会产生意义失真或失去检索意义时。例如:“猎户星云”、“亲属语言”、“文化水平” 等;

② 在标引和检索中使用频率很高的词组, 分拆后又要组合在一起的。如“ 火箭推进剂”;

③ 表达单独概念的专有名词, 如“ 环境工程”、“ 北京图书馆” 等。

2 . 词类控制

叙词法中, 只采用能表达档案主题概念的名词和名词性词组以及极少量的形容词作标识, 其他词类, 如动词、副词、介词、连词、感叹词等, 一概不能选用。数词不列入词表, 当标引需要时可按规则使用。词类控制可大大压缩词汇量。

3 . 词形控制

指对字面形式不同但含义相同的词进行规范处理, 达到概念和词的一一对应。包括对词的不同形体、拼写形式、词序和单复数形态的规范以及对同义词和准同义词的优选。

(1 ) 词的不同形体和写法的规范。汉语词有几种写法或几种形体( 简体、繁体、异体) , 外语词的不同拼写形式及单复数形态, 都以现在通行的习惯用法为准。

(2 ) 词序的控制。一般采用自然词序, 不采用倒置词序。必要时可将倒置词序形式作非正式叙词保留, 引向自然词序。

(3 ) 同义词的优选。在学名与俗称之间选用学名; 在新称与旧称之间选用新称; 在不同译名、全称和简称之间选用通行的词; 在普通同义词之间选用科学、确切、通用的词作正式主题词。

(4 ) 准同义词的优选。准同义词是指那些在语义上十分相近, 不是同义词但可作为同义词处理的那些词, 包括部分近义词、反义词、否定词和某些过于专指的词。优选时, 将近义词合并到其中较为通行的词中, 例如:经济渗透用 经济扩张

将反义词、否定词合并到其正义词和肯定词中, 例如:

漏检率( 反义词) 用 检全率( 正义词)

非主要矛盾( 否定词) 用 主要矛盾( 肯定词)

将过于专指的词合并到其上位词中, 例如:

象形( 专指词) 用 六书( 上位词)

4 . 词义控制

指对多义词和词义含糊的词加以限定和注释。一般可从学科、专业、地域、时间等方面对词的含义加以限定, 例如:

( 语言学)、词(文学)

黑旗军( 山东)、黑旗军(广西)

巴黎和会( 1918 )、巴黎和会(1946)

注释是对词义含糊的词进行说明或加定义, 以明确词的含义, 例如:

特 城市

: 100 万人以上的城市

限义词和注释在使用时的区别在于: 限义词作为叙词的组成部分, 标引时要标出; 而注释只是用来明确词的含义和范围, 引时不标出。

5 . 词间关系控制

叙词法采用了两种词间关系控制方法: 一是建立参照系统;二是通过各种索引如范畴索引、等级索引等来显示词间关系。其中参照系统为词间关系控制的主要手段, 它用参照符号将叙词间的等同关系、等级关系和相关关系予以全面显示, 形成了一个语义网络。汉语叙词表所采用的参照符号有“ Y( )、“D() 、“S() 、“ F()、“C() 、“Z() 等。例:


另外, 参照符号“Z() 为族首词指引符, 当词表附有词族索引( 等级索引) 时才采用此符号, 也显示等级关系。例如:

排球运动  Z  球类运动

() 特点

与档案分类法相比, 档案主题法有下列特点:

1 . 直接性

档案主题法直接采用自然语言语词作标识, 较之分类法中的号码标识在表达概念上比较直观。另外, 主题法标识按字顺排列, 每个标识都处于同等地位, 任何细小主题概念都可按字顺一索即得, 而不像在分类法中被埋没于层层类目之下。

2 . 专指性

由于主题法直接从档案材料所论述和涉及的具体对象和问题选词, 并可通过组配方法来描述复杂主题概念, 因此, 无论主题如何专深, 概念之间的关系如何复杂, 只要其具有实际检索意义, 都可以根据需要进行主题标引, 而不像分类法那样受分类体系的限制, 难于归类。

3 . 灵活性

主题法中的每个标识都处于相对独立的位置, 能够比较方便地加以增删和修改。可以及时反映新学科、新事物、新概念, 而不像分类法中的类目, 受上位类、下位类、相关类、分类号的限制, 牵一发而动全身。

二、档案主题词表的体系结构

档案主题词表由主表和辅表( 索引) 组成, 下面以《中国档案主题词表》修订版为例说明档案主题词表的体系结构。

() 主表

它是词表的正文部分, 由全部正式主题词和非正式主题词按汉语拼音顺序排列而成。《中国档案主题词表》的选词范围包括20 世纪初叶以来反映党、政管理工作的词汇, 及档案中经常涉及的政治活动、科学研究、生产技术、经济建设等方面的专业词汇和反映新事物、新概念的词汇。具体来说, 主要包括以下方面的词汇:

1. 中国各民族、各民族文字与语言的名称, 世界上其他主要文字、语言的名称, 主要宗教名称;

2. 行政职务与专业技术职务名称, 军职与军衔名称;

3. 部分国家法律和规章名称;

4. 节目、节令名称, 具有特殊重要意义的会议名称和有重大影响的历史事件名称;

5. 学科名称及反映学科具体内容概念的部分词目, 重要的、常见的化学元素、矿物、合金、化合物名称;

6. 小说、戏剧、曲艺、诗歌、绘画等文学艺术作品的泛称词及其使用频率高的下位词;

7. 田径运动、水上运动、冰上运动和体操等体育运动项目名称及其直接下位词;

8. 常见的动物、植物、疾病、医药及各类工农业产品的名称;

9. 枪械、火炮、弹药等武器称谓及其直接下位词。

其选词原则如下:

1 . 力求具有思想性、科学性、实用性;

2 . 能够较全面反映综合性档案馆、机关档案室所藏档案内容的主题概念, 具有实际检索意义, 并适当考虑标引和检索的使用频率;

3 . 符合汉语的结构特点, 词形简练, 概念明确, 词义单一。词的款目结构如图2-3

款目项主要起排列和检索入口的作用, 其中的范畴号是该词

在范畴索引中的分类号。参照项的作用是显示词间关系, 其中

“代” 项显示等同关系, 说明“游水” 是“游泳” 的同义词,

此作为非正式主题词, 用来指引和查找正式主题词, 不能作为标引和检索词使用, 其对应的参照项为“用” 项; “ 分” 项、“属” 项、“族”项显示等级关系, “ 分” 项中的主题词是款目词的下位词, “属” 项中的主题词是款目词的上位词, “ 族” 项中的主题词是款目词的族首词( 最上位词) , 其后注以“ * ” 号;“参” 项显示相关关系。

除此之外, 为了明确主题词的含义, 主表中还设有限定词和注释。限定词用圆括号注于主题词之后, 作为主题词的组成部分, 指明该主题词的使用范围, 如下例:

Wangji

旺季( 商业)

注释是对主题词的含义所作的简要说明, 用圆括号注于主题词之下, 不作为主题词的组成部分, 如下例:

Wuaijiaoyu

五爱教育( 爱祖国、爱人民、爱劳动、爱科学、爱护公物)

() 范畴索引

又称分类索引, 它是将主表中的全部主题词按其概念属性划分成大大小小的类目排列而成, 以满足从分类的途径查词和族性检索的要求。《中国档案主题词表》范畴索引的类目是参照《中国档案分类法》主表的类目并结合主题词的特点而设置的, 所有类目不超过三级。其标识符号采用汉语拼音字母与阿拉伯数字混合制, 一、二级类目用字母标识, 三级类目用阿拉伯数字标识。

例如:

G       文化、教育、卫生、体育 ⋯⋯⋯⋯⋯ 一级类目

GA      文化 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯ 二级类目

GA1     文学 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯ 三级类目

当一词具有两个类目的属性时, 在有关类目重复出现。

() 词族索引

又称等级索引, 它是将具有等级关系的主题词汇集在一起,构成一个从泛指词到专指词的等级系统, 可以从一族词中外延最广的族首词出发, 找到一系列同族的主题词, 显示其间的层层隶属关系, 增强词表的族性检索功能。《中国档案主题词表》确定族首词1 233 , 入族主题词1 398 , 占正式主题词总数的52% , 包括词表中具有属种关系、包含关系以及一部分具有整体与部分关系的主题词, 其结构是将上述范围的词按等级展开的形式排列在族首词之下, 族首词之间以及族首词以下的同级主题词之间依汉语拼音音序排列, 族首词为一级词, 其下分词前置一个点为二级词, 两个点为三级词, 三个点为四级词, 依此类推。词族索引一般无标注项和参照项, 不包括非正式主题词。

具有属分关系的主题词, 一般以一个词入一个词族为原则,少数主题词按其属性须跨两个或两个以上词族者, 分别在不同词族中显示。同一词族内, 有少量主题词按其属性须跨两级者, 在两级下重复显示。

词族索引与主表之间通过缀以“ * ” 号的族首词联系, 在主表中看到带有“ * ” 号的主题词, 可在族首词目录中先查到该词在词族索引中的页码, 便可在词族索引中查到该族词。

() 附表

附表一般由专有叙词汇编而成, 包括人名、地名、机构名、产品名等。将这些专有叙词单独编成附表, 可避免主表体积过大, 方便查词。附表中所收词汇与主表一般不重复, 实际上是主表的一个组成部分。《中国档案主题词表》修订版编制了人名表和机构名表作附表。

1. 人名表

人名表主要收录明清时期进士, 三品以上命官; 民国中央政府及执政党正部级官员; 中华人民共和国中央人民政府及中共中央部委局办一级机构正职以上领导人, 其他党派、群众团体主要负责人, 上将、正军级以上国职人员, 全国各界著名人士, 著名华侨与国际友人, 与中国重大历史事件有关的著名外国人等共计11 771 位明清以来重要人物。

人名表的注释由生卒时间、籍贯或出生地构成, 用圆括号注于人名之下。生年不详的, 标以问号; 卒年不详的, 1880 年以前出生的标以问号, 1880 年以后出生的暂不标记。人名表的参照项只设YD , 对有别名、笔名、字、号者, 凡党、政人物, 以从政名为正式主题词; 凡社会名流, 以最常用名为正式主题词。例如:

Shenjunru

沈钧儒

(18751963 浙江嘉兴)

D 沈秉甫

沈衡山

2. 机构名表

机构名表主要收录明清中央政府机构以及著名工矿、学堂名, 辛亥革命以来中央政府及其直属机构( 不含司局级内部机构) 和派出机构的名称, 中央立法、司法、军事机构及大军区的名称, 执政党中央机构和派出机构的名称, 其他政党、团体中央机构的名称, 有影响的全国学会、协会、宗教团体的名称, 中央级企事业单位名称以及与上述机构有相同级别的临时机构的名称等共计1 900 个明清以来中央级党、政、军、社团、企事业机构名称。

机构名表的款目结构及款目词排序方法与主表基本相同, 但不标范畴号, 亦无注释。必要时词目后注以( ) ( ) ( 民国)( ) 等限定词。参照项设有YD C , 同一时期的机构, 一般以规范化的简称为正式主题词, 少数特殊机构以俗称为正式主题词; 不同时期的职能基本相同而名称有所变更的机构互参。

1 Zhongxuanbu

中宣部

D 中共中央宣传部

2 Disijixiegongyebu

第四机械工业部

C 电子工业部

除了上述组成部分外, 《中国档案主题词表》还设有主表拼音音节索引和词目首字笔画检字表。主表拼音音节索引将主表中的款目词首字的汉语拼音音节按音序排序, 在每个音节后指出该音节在主表中的起始页数。词目首字笔画检字表附于主表拼音音节索引之后, 由主表中款目词的首字按笔画顺序排列而成, 字后注有该字在主表中最先出现的页码, 供不熟悉汉语拼音的人使用。

三、档案主题词表的评价

档案主题词表的评价主要从词表结构和词汇水平两方面进行。

() 词表结构评价

对词表结构总的要求是结构简明, 使用方便, 而功能齐全。具体来说, 可从下面几方面评价:

1. 词表结构的严密性

主要指词表的各个组成部分相互对应、相互指引的程度。主表和辅助表各司其职, 功能互补, 提供不同的查词途径, 又相互联系, 构成一有机整体。

2. 词表结构与功能的成本效益

用尽可能简明的结构达到尽可能齐全的功能。功能齐全但结构复杂、不便使用或结构简单但功能单一, 都是不可取的。

3. 词表的易用性

指词表的结构模式、排检方式是否易于标引和检索, 如有无详尽的使用说明, 是否提供了多种查检手段或辅助工具等。

() 词汇水平评价

1. 完备性

与词汇量的大小有关, 词表词汇量的多少决定了词表的规模。一般来说, 词汇量越大, 词汇的完备性就越高。词汇量受词表性质、专业范围、档案数量、先组度等多种因素制约。由于词表体积过大会给其使用带来困难, 因此词汇量并非越大越好, 以能基本满足标引需要为限。

2. 专指度

指词汇表达档案主题概念的确切程度, 可通过词汇的使用频率来衡量。若使用频率过高, 说明专指度偏低, 需增加下位词;而使用频率过低, 说明专指度偏高, 应予以合并或删除。

3. 等同率

指非正式主题词与正式主题词的比率。非正式主题词也称入口词, 是在规范化处理中落选但保留在词表中作为检索入口的词, 主要是一些具有共同关系的词如同义词、准同义词、过于专指的词等。等同率越高, 检索入口就越多, 查词就越方便。国外词表的等同率一般在50% 左右, 相比之下, 我国的几部档案主题词表的等同率就低得多。等同率的计算公式如下:

4. 参照度

指词表中主题词间等级关系和相关关系的显示程度, 它是衡量词汇相关性的主要指标, 参照度越高, 相关性越强。参照度的计算公式如下:

5. 关联比

指词表中有关联词的词数与词表总词数的比率, 它反映了词表显示概念之间相互关系的充分程度。词表有关联的词越多, 关联比就越高, 词表的性能就越好。关联比的计算公式如下:

6. 先组度

指词表中复合词( 先组词) 与主题词总数的比率。先组度的高低直接影响到词表的词汇量及其组配性能, 以适中为宜, 既不能过高, 增加词表体积, 影响组配性能的发挥; 又不能过低, 增加组配误差产生的可能性, 降低标引的准确性。先组度的计算公式如下:

除此之外, 档案主题词表中还可配置轮排索引、双语种对照索引等, 以增加词表的功能。

四、档案主题词表的管理

与分类法一样, 档案主题词表也要在使用过程中, 随着客观事物的发展和人们认识水平的提高不断进行修订和完善。

() 档案主题词表修订管理的内容

(1 ) 增补主题词。增补反映新事物、新概念的主题词; 编表时漏选而又有检索意义的词; 已选主题词的同义词和准同义词;在使用频率过高的主题词下增补较专指的词。

(2 ) 删除或合并使用频率过低和重复多余的主题词。被删除或合并的词, 仍应作为非正式主题词保留在词表中, 用参照指向正式主题词。

(3 ) 订正某些主题词的字面形式或参照项。

(4 ) 改正编表时的漏洞和错误。

(5 ) 完善词表的结构, 引进某些新方法。

主题词的增、删、改, 会牵涉到参照系统及其索引, 应全盘考虑, 作出相应调整。

修订时应填写主题词管理卡, 并根据平时的词频统计有步骤地进行, 以免造成混乱。

() 《中国档案主题词表》的修订与管理

《中国档案主题词表》1989 年出版试行本, 是我国第一部通用的综合性档案主题词表, 选词范围广泛, 符合档案特点。该词表在编制过程中遵循了国际标准ISO2788 《单语种叙词表编制规则》和国家标准《汉语叙词表编制规则》, 并注意与其他词表、分类表的兼容, 规范化、兼容化程度较高。然而, 这部词表也存在不少问题, 主要表现在其结构和词汇上。该词表的结构比较简单, 只有主表和范畴索引, 功能略嫌不足。选词偏重文书档案中涉及的词汇, 对科技档案及其他专门档案中的专业词汇收录不多, 因此主要适用于普通档案的标引, 而不适用于科技档案等专门档案的标引。另外, 《中国档案主题词表》的词间关系显示不够完整、严谨, 参照度较低。一些同义词、近义词未加合并, 词汇的等同率不高。有些词很少有用, 另一些常用词又未收录。凡此种种, 都影响到词表的使用和推广。为此, 自《中国档案主题词表》的试行本出版发行后, 国家档案局即着手准备其修订工作, 用一年半时间组织32 个各级各类档案机构进行了标引验证工作, 获取验证数据5 万多条, 为词表的修订提供了依据。1990, 国家档案局档案科学技术研究所标准化室组织课题组, 开始编制《中国档案主题词表》的附表人名表和机构名表。1991 7, 成立《中国档案主题词表》编辑部, 专门负责该表的修订工作。1992 3 , 编辑部讨论制定了修订工作计划, 正式开始了词表的修订工作, 对《中国档案主题词表》在以下方面作了修订:

(1 ) 对词汇进行了增删改。对试行本中的27 288 条词汇进行了逻辑校验, 新增词2 134 , 删词3 531 , 订正错误405处。修订后的主表共收词25 891 , 其中正式主题词21 785 条。

(2 ) 修改、补建参照1. 5 万余处。将凡是具有属种关系、包含关系、整体与部分关系的主题词尽可能地建立属分参照, 修改了不合适的参照项。

(3 ) 调整了范畴索引的部分类目。对一些范畴划分不合适的词目作了调整, 改动范畴号2 769 个。

(4 ) 编制了词族索引和附表。

(5 ) 编制了人名和机构名首字检字表, 调整优化了词目首字笔画检字表的编排顺序。

经上述修订, 《中国档案主题词表》的结构更加完善, 其词汇水平也大大提高。

《中国档案主题词表》的修订版已于1994 年由档案出版社出版发行。


相关阅读
发表评论
0评