基于CNKI检索平台、采用文献计量法对国内数据加工非专利技术进行的研究表明,国内数据深加工工作的研究热点为:文献、文本的标引、加工,以及可用于情报挖掘、数据检索等的信息组织。研究热点领域的高被引频次文献反映出了与数据加工相关的前沿技术。
数据加工相关的研究热点
以“CNKI新平台跨库检索”作为检索平台,以“数据加工;数据深加工;数据标引;数据深度标引;文献加工;文献深加工;文献标引;文献深度标引;文摘加工;文摘深加工;文摘标引;文摘深度标引;文本加工;文本标引;信息标引;文献信息组织;文本信息组织”为关键词,检索到的671篇非专利文献中出现频次排前四名的关键词(已将同义词、近义词的出现频次进行了合并),分别为“文献标引”、“信息组织”、“主题标引”、“数据加工”,由此确定出目前国内数据加工领域的研究热点为:文献、文本的标引、加工,以及可用于情报挖掘、数据检索等的信息组织。
表1 国内数据加工相关非专利文献关键词词频
关键词 |
频次 |
文献标引 |
97 |
信息组织 |
86 |
主题标引 |
82 |
数据加工 |
34 |
数据加工相关的前沿技术由 “文献标引”、“信息组织”、“主题标引”、“数据加工”这四个研究热点领域的高被引频次文献确定与数据加工相关的前沿技术。
表2 四个研究热点对应的与数据加工相关的高被引频次文献
研究热点 |
作者 |
篇名 |
年份 |
期刊 |
作者机构 |
被引次数 |
文献标引 |
周和玉 |
科技文献的知识表达及应用研究 |
1996 |
情报学报 |
武汉交通科技大学 |
8 |
李景正等 |
文献标引的一致性及其可能的控制 |
1991 |
情报科学 |
黑龙江大学 |
5 |
|
胡继萍 |
网络条件下文献标引的深度与广度 |
2003 |
四川图书馆学报 |
四川工程职业技术学院 |
5 |
|
信息组织 |
黄如花 |
网络信息组织的发展趋势 |
2003 |
中国图书馆学报 |
武汉大学 |
47 |
黄如花 |
国内外信息组织研究述评 |
2002 |
中国图书馆学报 |
武汉大学 |
42 |
|
黄如花 |
网络信息组织的模式 |
2004 |
中国图书馆学报 |
武汉大学 |
35 |
|
主题标引 |
赵妍等 |
中文期刊论文自动标引加权设计研究 |
2004 |
新世纪图书馆 |
南京农业大学 |
16 |
王维新 |
文献主题标引一致性研究 |
1998 |
山东图书馆季刊 |
上海师范大学 |
5 |
|
赵妍等 |
中文期刊文献通用词标引分析 |
2007 |
图书与情报 |
南京农业大学 |
5 |
|
周潇洒等 |
国内生物医学期刊主题词标引现状 |
1999 |
医学情报工作 |
温州医学院附属第一医院 |
5 |
|
数据加工 |
孙艳玲等 |
深度加工标引的中国药物专利数据库 |
2008 |
中国医药导刊 |
国家知识产权局知识产权出版社专利数据研发中心 |
4 |
杨贺等 |
用于计算机辅助文献标引加工系统的自然语言词表构建 |
2010 |
现代图书情报技术 |
中国科学技术信息研究所;北京万方数据股份有限公司 |
2 |
|
李迪 |
外文文献数据加工中的质量控制 |
2010 |
农业图书情报学刊 |
中国农业科学院农业信息研究所 |
2 |
对四个研究热点对应的与数据加工相关的高被引频次文献进行技术内容分析:
1. 文献标引
武汉交通科技大学图书馆的周和玉在《科技文献的知识表达及应用研究》提出,将知识工程中的知识表达方法OAV三元组法运用于科技文献的知识表达中。OAV法即“对象-属性-值三元组法”,O表示对象,它可以是物理实体如船舶等,也可以是概念上的实体如运输业务等。A表示属性,是指与对象有关的一般特征或性质,如船舶的吃水深度、长度、航速等。V表示属性的值,是指属性在一定情况下的特性,如船舶的吃水深度、长度、航速的具体数值等。文献的每一组OAV就构成一个完整的知识,可称其为“知识单元”,多个知识单元结合起来,可较全面地将一篇文献的研究特点及包含的知识表达出来。用OAV法标引文献可以大大改善定性和定量情报分析的精度和准确性,可以较完整全面地看出这项技术的全貌和发展趋势;OAV法标引的是一个个知识单元,它们较主题词更能全面地反映文献的内容;在统计和分析对象上,OA V法较主题词法更细化、更系统。
四川图书馆学报的胡继萍研究了《网络条件下文献标引的深度与广度》。网络采用多媒体与超文本技术相结合的超媒体技术,将各种信息存储在各结点上,用链来连接。用户可以根据自己的意愿及检索时得到的启示与联想,自由地从一个结点跳到另一个结点。网络中的每个结点可以提供多个通向其它结点的链接点(即检索点),复杂的链接结构形成纵横交错的信息网,从各方面入手都可查到同一信息。网络条件下的文献标引应尽可能详尽地提示出文献的各种特征,不能让任何有用的知识和信息因为标引不彻底而被埋没,要把凡是具有检索意义的事物属性和主题因素都标引出来,提供多种检索途径。网络条件下提高文献标引的深度和广度的途径包括:利用机读目录提高分类标引深度,缓解体系分类法中集中与分散的矛盾;在机读目录中为文献标引多个主题词;增加新的标引项目等。
黑龙江大学的李景正等人研究了《文献标引的一致性及其可能的控制》。文献标引一致性要求有两层意思:一是不同标引者对同一标引对象的标引结果应趋于一致,或者说,所采用的核心标识相同;另一层是同一标引者,在不同时间和环境下,对同一文献,应给出前后一致的检索标识。文中指出文献标引一致性的控制方法包括如下几点:(1)人员问题:人的因素是整个文献工作、更是作为文献标引关键性环节的重要保证。应在保证标引人员相对稳定的前提下,全面提高其素质,包括政治素质、职业道德素质、专业知识和相关学科知识水平、科研素质;(2)集中标引:集中标引是指在全国范围内指定一专门带有权威性的机构,担任统一标引工作;(3)制定分析提纲与标引规则:为了保证主题分析符合“客观性、专指性、网络性、一致性、针对性”的要求,应当根据不同文献机构的不同分析要求、不同文献的不同分析项目,制定主题分析提纲,供主题分析时使用,以克服任意性;(4)对比和参考国外的标引成果:在我国大多数使用《中图法》、《科图法》、《汉语主题词表》及其它专业词表的文献机构,针对外文文献一般不直接使用国外检索语言,但外文书刊的检索标识,可直接转换成国内所使用的检索语言的标识。为了使用方便,应将国外检索语言,尤其是通用性强的分类表引进翻译,编印成对应表。
2. 信息组织
信息组织领域目前国内研究最多的分支为网络信息组织。武汉大学的黄如花在《网络信息组织的发展趋势》指出,理想的网络信息组织模式应该以用户为中心,遵循实用性和易用性原则,综合运用自然语言和人工语言(分类语言、主题语言),充分利用新兴技术和人们经验的积累,朝着更符合用户需要的方向发展。具体来讲,应该朝着以下7 个方向发展:信息描述标准化、组织活动合作化、组织技术智能化、资源与服务集成化、用户界面可视化、内容揭示深入化、组织方法多样化。
3. 主题标引
南京农业大学的赵妍等在《中文期刊论文自动标引加权设计研究》中,分析得出了期刊中论文的内容主题与文章题名、文摘、关键词、首段、第二段、倒数第二段、末段以及参考文献等8个标引源之间的关系,以及不同标引源的主题表达能力,并在此基础上设计用于加权标引的相应权值。以上8个标引源表达能力的先后顺序为:文摘>题名>关键词>首段>尾段>参考文献>第二段>倒数第二段。对它们分别设置的加权值可建议为:5:5:5:4:4:3:2:2。
上海师范大学的王维新在《文献主题标引一致性研究》中提出,(1)《汉语主题词表》是文献主题标引的主要工具,但需要制定出一个《汉语主题词表》的使用细则,(2)《中国分类主题词表》在一定意义上起着规范作用。通过丰富优化词表、完善标引规则,可以提高文献标引的一致性。
温州医学院附属第一医院的周潇洒等在《国内生物医学期刊主题词标引现状》中,主要论述了目前采用主题词标引的期刊很少,仅占3.4%。而采用主题词标引的期刊中,又存在6种明显的标引错误和不当,包括:(1)自编主题词,标引的主题词在《MeS H》和《中医药学主题词表》中找不到完全相同的词,或只有部分相同的词,其实仍是自由词;(2)无主题词/副组主题词格式,主题词与副主题词完全混淆,把副主题词做主题词标引;(3)漏标主题词;(4)标引过粗,未选择专指主题词,选词概念过宽;(5)未标引副主题词,没有副主题词限定,会使主题词概念过大,将造成漏检;(6)副主题词组配不当,选用不恰当或不规范的副主题词进行组配。
南京农业大学的赵妍等《中文期刊文献通用词标引分析》指出,通用词是指在专业领域没有独立检索意义的泛指词,通用因素一般为单元词,都不具有独立检索意义,不能作为读者查找文献的入口。例如:研究、设备、调查、设计、分析、演变、方案、总结、进展、概况、制造、性质、作用、工艺、方法、现象、理论、过程等概念均为通用因素。应当尽量少用通用词,可以选用由通用因素与主体因素结合而成的自由词,以提高专指度和先组度。此外,无论叙词标引或自由标引,都不能简单地切分题名或文摘进行选词,要注意对文献中的隐含内容深入分析,加以揭示。同时指出,应当加强自由标引系统的词库控制,可以为系统建立一个专门的标引用词的词表或词库。期刊网还应当逐步开发计算机辅助标引或自动标引和分类系统。这样可以将著者标引的关键词和机器自动标引的关键词结合起来,生成转换出相关的主题词、关键词和分类号,为它们加上必要的链接后,就可以为用户提供扩展检索概念检索服务。
4. 数据加工
数据加工依文献数据类型不同可分为报刊数据、期刊数据、论文数据、专利数据等。在药物专利数据加工方面,国家知识产权局知识产权出版社专利数据研发中心的孙艳玲等在《深度加工标引的中国药物专利数据库》中进行了深度加工标引的中国药物专利数据库研究,中国药物专利数据库对中国药物专利进行深度加工,其加工内容包括:专利发明主题标引、医疗应用标引、范畴分类、文摘重新撰写、化学物质信息标引、中药方剂信息标引。经过深度加工标引的中国药物专利数据库在数据库系统设计上采用专利题录信息主数据库与中药材数据库和西药辞典辅助文档相配合的方式,实现了对药物专利题录信息、化学物质信息、中药材信息、化学结构图形等信息的检索。
对于外文文献的数据加工,中国农业科学院农业信息研究所的李迪在《外文文献数据加工中的质量控制》中研究了外文文献数据加工中的质量控制,文中指出数据加工过程中注意的要点包括:(1)文摘载体信息标识准确。载体信息包括书刊名、国际标准号、年卷期或年月日以及文章的页码;(2)选题准确。避免加工无技术性内容或只有时效性的信息,如新闻、会议通知、广告等;(3)文摘数据各字段区分准确;(4)数据审核准确。数据的审核包括文献源信息的审核、期刊名称的标识、区分每期期刊的标识以及数据内容的校对;(5)录入员的培训与管理。
现代数据加工工作已越来越多地采用计算机辅助加工技术,而词表系统又是计算机辅助加工文献数据工作的重要模块之一,中国科学技术信息研究所的杨贺等人在《用于计算机辅助文献标引加工系统的自然语言词表构建》中指出,自然语言词表大量使用作者自身所用词汇,可随时增词,对标引员的专业素质要求较低、标引速度快,易实现自动标引。自然语言词表的构件过程为:以《中国学位论文数据库》的人工标引词汇作为基础词库,运用计量分析法对人工标引词汇从词频、词长、词类型、词共现等多方面进行统计,根据其特点优选自由词,而后运用字面相似度通过计算机辅助计算同义、近义等词间关系,从而构成自然语言词表。(作者:张姝娜)