档案之窗-档案检索
点击加入->档案管理交流QQ群(708132784):
档案检索语言的发展
2018-07-19  浏览:35

档案检索语言的发展

随着档案检索工作的发展, 档案检索语言也逐渐改变了种类单一、结构简单、质量不高、使用不广的落后状况, 其类型逐渐多样化, 各种分类表、词表近几年纷纷编成使用, 质量也逐渐提高, 并与一般文献检索语言相呼应, 呈现出分类主题一体化、标准化、兼容化、计算机化的发展趋势。

一、分类主题一体化

分类主题一体化, 指的是分类法与主题法的有机结合, 即对分类法和主题法的标识、参照、结构体例等实施统一的控制, 将其有机地融合为一个整体, 从而同时满足分类标引和主题标引的需要。分类主题一体化已成为检索语言的主要发展趋势。早在20 世纪60 年代末70 年代初, 国际上就开始了分类主题一体化检索的研究与试验, 到现在已取得相当大的进展, 出现了一批分类主题一体化检索系统。我国图书情报界从80 年代初开始探讨分类法与主题法结合的理论与技术, 陆续编成了《常规武器工业分面叙词表》、《教育主题词表》、《中国分类主题词表》、《社会科学叙词表》等一体化检索词表, 分类主题一体化已成为一种共识。在这样的背景下, 档案分类主题一体化检索亦提到了议事日程上。

档案分类法具有系统性的特点, 适于族性检索, 档案主题法具有直接性的特点, 适于特性检索, 如果将它们结合起来, 实行一体化检索, 就可达到比较完善的整体功能。具体来说, 档案分类主题一体化有如下好处:

(1 ) 只须对档案进行一次性的主题分析, 通过一次性查表来同时完成档案的分类标引和主题标引两项工作, 可大大减少工作量, 提高档案著录标引工作的效率。

(2 ) 可在一个统一的检索系统中进行系统分类检索和字顺主题检索, 用户用同一提问就可分别从分类和主题两条检索途径查到同一主题内容的档案, 大大提高了检全率和检准率, 并可节省检索时间。

(3 ) 可以提高档案检索语言的编制管理水平。分类主题一体化使得档案分类表和词表的编制管理工作可以在统一的机构下集中进行, 只要人工编出分类表, 将必要的数据输入计算机, 就可由计算机自动生成字顺主题表和各种辅助索引, 大大节省人力物力, 提高档案检索语言的编制速度和质量。

(4 ) 有利于我国档案检索体系的兼容化、标准化和计算机化。由于档案信息前处理工作的落后一直是阻碍我国档案信息组织与检索工作的拦路虎, 尤其是分类标引和主题标引工作一直难于有效开展, 因此, 分类主题一体化对我国档案界有着更为现实的意义。事实上, 一些档案部门已经作了一些分类主题一体化的尝试, 并取得了初步成果, 如中国第二历史档案馆已编成一部《民国档案分类主题词表》、中国第一历史档案馆已编就《清代档案分类主题词表》、河北省档案馆编成《革命历史档案机检分类、主题词对照表》, 全国通用的《中国档案分类法》与《中国档案主题词表》的对照索引的编制工作正在进行之中。由此可见, 案分类主题一体化势在必行。

分类主题一体化的途径可以归纳为以下几条:

1 . 编制全新的分面叙词表

这种分面叙词表通常由一部分面分类表和一部字顺叙词表组, 类目和叙词一一对应, 两部分用分类号相连。分面叙词表结构新, 功能强, 适应性广, 是一种新型的一体化检索语言, 20世纪中后期出版的影响较大的检索语言都属于此种类型, 如艾奇逊的《联合国教科文组织叙词表》(1977) 、英国标准协会的《基础叙词表》( 1981 )、我国的《社会科学叙词表》、《教育主题词表》(1993 ) 等。新编分面叙词表可以不受旧表约束, 采用最新的理论和技术, 完全从检索系统的要求出发进行设计, 性能优良。但这种词表结构较复杂, 编制、使用难度较大, 难以很快推广。

2 . 将叙词表的范畴索引改造成严格的分类体系

叙词表的范畴索引仅仅是一种辅助查词手段, 不具备独立的分类标引功能。如果将范畴索引进一步细分, 将所有叙词都纳入一严格的等级体系中, 然后配上标记符号, 并在词形、词义方面进行统一控制, 即将范畴索引改造成了一完整的分类表。这个分类表与字顺主表相结合, 就可同时行使分类法与主题法的职能,从而达到分类主题一体化的目的。

3 . 将分类表的字顺索引改造成叙词表形式在分类表的字顺主题索引款目中增加参照项, 显示概念之间的关系, 与此同时对分类表类目进行严格的词形、词义和词间关系的控制, 这部分类表就可既用于分类标引又用于主题标引。目前已出现了多部为《国际十进分类法》( UDC) 专业类表编制的叙词表式的字顺索引。

上面两种方案都着眼于索引的改造, 使之不仅作为辅助查表的手段, 还可进行独立的标引, 加强了词表或分类表的功能, 比较简便易行。但是, 这种一体化改造只是针对某一种现有的叙词表或分类表进行, 并不能在更大范围内将分类法和主题法统一兼容起来。

4 . 选择两部分类表和词表, 在不变动原表的前提下, 将分类号和主题词进行对应转换

《中国分类主题词表》就是这种对照索引的典型代表, 它是将《中国图书馆图书分类法》和《汉语主题词表》作对应转换的产物, 分两大部分: 第一部分是《中图法》类号与《汉表》叙词对照索引; 第二部分是《汉表》叙词与《中图法》类号对照索引。对照索引一方面可以作为一种中介词典用于两表的兼容互, 另一方面也可作为一种独立的标引工具进行分类标引和主题标引。但这种对照索引局限性较大, 表现在:

(1 ) 过分依赖原表, 其质量直接受参加对应的两表质量的制约;

(2 ) 由于参加对应的两表先组程度、专指度、选词等方面的差异使得类号和词难以等价对应, 常常是一个分类号同几个主题词对应, 一个主题词对应于多个分类号, 如此互相迁就, 往往减弱了索引的功能;

(3 ) 由于编制对照索引时, 需对分类表、词表的现有词汇进行分析对应, 必要时还要对标识形式进行改造, 因此编制一部对照索引的工作量并不小于新编一部词表的工作量, 尤其是当被对应的分类表、词表一部是先组式语言, 一部是后组式语言时, 编制的难度更大;

(4 ) 由于被对应的两表往往是使用时间较长, 使用范围较广, 已形成一批固定用户的老表, 因此对照索引不太可能完全取代原表, 而原表的修订势必会影响到对照索引。

5 . 将现成的分类表、主题词表结合成一个分类主题一体化词表

它是将现有的两部分类表、词表经过改造, 融为一体, 形成一种新的一体化词表。被选用的两表应是地位相当, 并已被许多部门应用, 有着良好的性能, 其学科范围、选词原则、先组程度应是相近的。与对照索引一样, 这种一体化词表也是在原有分类表、词表的基础上编成的, 但它已将两表完全融合在一起, 完全取代了原表的作用。采用这种方案主要要考虑两表合为一表后对现有体系的影响以及能否被很快接受的问题, 这要依所选用的分类表和词表的使用情况而定。

考虑到种种现实因素, 目前我国的档案分类法、主题法一体化工作采用的是第四种方案, 正在对《中国档案分类法》、《中国档案主题词表》进行修订完善的基础上着手编制两表的对照索引。

二、标准化与兼容化

《中国档案分类法》和《中国档案主题词表》实际上就是作为档案分类和主题检索标准而编制的, 它们作为全国统一的档案分类标引和主题标引规范, 已经起到了国家标准的作用。这两部分类法、词表经修订完善后, 将对我国档案检索语言的标准化起举足轻重的作用, 它们与已经颁布推行的《档案著录规则》、《档案分类标引规则》和正在制订的《档案主题词标引规则》相配, 将大大推进我国档案信息检索体系的标准化, 为建立全国统一的档案信息检索体系创造条件, 为将来的联机检索网络化打下基础。

档案检索语言的标准化除了编制全国通用的分类表、词表作为标准推广使用外, 还通过制订分类表、词表的编制标准来实现。目前我国已制定了《中国档案分类法专业表编制规范》, 作为编制专业档案分类表的准则。在档案主题词表编制方面, 则参照国际标准《单语种叙词表编制与发展准则》( 1983 ) 和《汉语叙词表编制规则》。分类表、词表编制标准对其标识、款目格式、符号运用、概念之间关系的处理、结构体系、管理与修订等作了统一规定, 使根据这些编制规范编出的分类表、词表有统一的模式, 一方面保证了分类表、词表的编制质量及其统一, 另一方面为各种分类表、词表的兼容提供了必要条件。

兼容化实际上也属标准化范畴, 不同的是, 标准化带有强制性, 难以彻底实现, 而兼容化是非正式的, 只是在某种程度上实现统一, 比较容易实现。随着档案分类表、词表的增多, 它们在体系结构、词汇上存在的差异逐渐扩大, 由于每一种分类表、词表都根据特定的需要编制, 只适合特定的检索系统, 致使各种检索语言和检索系统间缺乏互换性, 给档案检索的网络化带来障碍, 因此, 须尽早采取兼容化措施。

检索语言的兼容方式有下面几种:

(1 ) 词汇自动转换。通过一套转换规则实现检索语言标识的自动转换。

(2 ) 中介词典法。中介词典是一种协调词表, 不能用作标引, 只能作为一词汇转换中心, 联结一批需兼容的检索语言。

(3 ) 集成词表。将某些特定领域的若干分类表和词表汇编成一种集成式词表, 用于检索语言的兼容转换。与中介词典不同的是, 这种集成词表不仅仅用于词汇的转换, 必要时还可用作标引, 并作为新编分类表、词表的源词表。

(4 ) 词库。将多部分类表、词表的数据汇集起来存于计算机, 是众多受控词汇的集合, 类似于集成词表。我国正在进行国家叙词库的组建工作。

(5 ) 综合性语言与专业性语言的兼容。即将一部质量较高的通用综合性分类表或词表作为规范, 在此基础上编制各种专业性分类表, 专业性语言的基本结构、词汇、符号等都与综合性语言兼容。鉴于目前的实际情况, 档案检索语言的兼容宜采用这种方式。

由于我国档案检索语言的编制和使用起步较晚, 在分类表、词表的编制过程中较早考虑到了标准化、兼容化问题, 因此, 我国档案检索语言的规范化、兼容化程度是较高的。其中, 各种专业档案分类表基本上按照编制规范, 在统一的《中国档案分类法》基础上编制出来, 它们与《中国档案分类法》可以说是完全兼容的。《中国档案主题词表》编委会也鼓励有关部门参照该表体例, 编制自己专用的专业叙词表, 目前已见到的有中共中央对外联络部的《国际共运主题词表》, 国家气象局的《气象部门档案文件主题词表》, 中共中央纪律检查委员会的《纪检文件档案主题词表》, 原国家教委的《高等学校档案通用主题词表》, 等。这些专业词表与《中国档案主题词表》几乎是完全兼容的。

然而, 在《中国档案主题词表》之前编制的一些档案主题词表如《中共中央组织部文件主题词表》(1986 )、《国防科工委档案主题词表》(1986 ) 、《军事公文常用主题词表》( 1987 ) 是参照《汉语主题词表》和其他用于图书情报检索的词表编成, 这部分词表如何与《中国档案主题词表》兼容, 是个急待解决的问题。

除此之外, 《中国档案分类法》和《中国档案主题词表》在修订完善过程中, 还应尽早考虑与之兼容的专业表的协调发展问题。

三、计算机化

目前, 档案分类表、词表的编制和管理基本上都是手工完成的。用手工编制和管理分类表、词表, 需花费大量的人力、物力和财力, 编表周期长, 质量难以保证, 不利于分类表、词表的更新, 采用计算机编制和管理, 就可解决上述问题。

检索语言编制和管理的计算机化主要体现在词表的编制和管理上。我国图书情报界从20 世纪80 年代早期开始研制计算机词表编制和管理系统, 1987 年以后已有60%左右的词表由计算机辅助编排, 而档案检索语言的机编化程度则较低。计算机主要在下列方面辅助词表的编制和管理:

(1 ) 辅助排序;

(2 ) 自动生成词表的各个组成部分。人工输入各种数据后,由计算机自动生成字顺表、分类索引、轮排索引、双语种对照索引等;

(3 ) 根据需要随时输出机读版或印刷词表;

(4 ) 管理和维护词表。自动进行词频统计, 根据统计结果和标引需要随时进行词汇的增删改。

分类表、词表在计算机编制和管理的情况下, 自然而然也就实现了机读化。与此同时, 可将手工编制的分类表、词表输入计算机, 转化成机读型的分类表和词表。这种机读表除了可作各种形式的输出, 便于完善和维护外, 还可用于联机查询, 提高档案信息检索系统的检索效率。

四、自然语言化

档案检索语言是在自然语言的基础上发展起来的, 随着计算机技术和网络技术在档案工作中的应用, 档案检索语言开始了向自然语言的回归。相对于规范化的人工语言( 分类表、词表) 而言, 在档案信息检索中使用自然语言, 可以取消复杂、费时的档案标引工作, 或至少可以降低标引工作的难度和成本, 使大多数未经过专门训练的用户可以用自己熟悉的语言直接查询各种数据, 提高检索效率。自然语言主要以下列方式应用于档案信息的组织与检索:

(1 ) 关键词法。指用人工或计算机将档案原文中对表征档案主题内容具有实质意义, 可以作为检索入口的关键词抽出来加以排列组织, 提供检索途径的方法。

这是自然语言用于文献检索最普遍的一种方法, 用来编制关键词索引, 也可用于联机检索。常见的关键词索引有题内关键词索引、题外关键词索引、双重关键词索引、词对式关键词索引、单纯关键词索引等。

(2 ) 文本检索。即用自然语言表达检索课题, 借助各种检索方法, 直接在篇名、文摘、正文中查找。

(3 ) 自由标引。指不依据分类表或词表, 而是从档案题名、文摘、正文中选择合适的词或用自拟的词进行标引。这种标引方式可以达到较高的专指度, 避免档案信息内容在标引过程中的失真, 大大加快标引速度。

(4 ) 自动标引。指由计算机自动分析档案信息内容, 判别档案主题, 自动归类或选定标引词的标引技术。

需要指出的是, 在手工检索条件下和计算机检索发展的初期, 用自然语言进行标引和检索是相当困难的, 自然语言检索只有在联机网络化的环境下才能高效率、高水平地实现。而在我, 计算机档案信息检索还远未达到普及的程度, 加之汉语自然语言检索中尚有许多难题有待解决, 所以, 在目前情况下, 自然语言不可能完全取代规范化的人工语言, 自然语言与规范化语言的结合使用不失为一良策, 两者结合的途径如下:

(1 ) 在规范化语言中吸取自然语言因素和手段。比如, 在词表中大量增加入口词, 编制专用的入口词表等。所谓入口词, 是词表中作为检索入口的非正式主题词, 可供标引人员由自然语言语词向规范词转换, 从而降低标引难度, 提高检索效率。

(2 ) 同时使用规范词和自由词标引。所谓自由词, 是指词表未收的, 取自档案本身, 但作了适当控制的用于标引和检索的词, 主要是专有名词, 其专指度高于词表中的主题词。用自由词作补充标引, 可弥补规范化语言不能及时表达新概念及其专指度偏低的缺点。

(3 ) 采用自然语言标引, 后控词表检索。后控词表实际上是一种将自然语言中的同义词、近义词、相关词联系起来的词汇集, 只用于检索而不用于标引, 其作用是将相关的自然语言标识组成一语义网络, 检索者可以从任一个词出发, 在词表中查到它的一批同义词、近义词和相关词, 减轻确定检索入口、拟定检索策略的脑力劳动, 方便检索, 并提高检全率。


相关阅读
发表评论
0评