基于知识图谱应用的图书馆知识检索服务构建思考

陈戈

摘 要 基于读者面临“信息超载”“信息迷航”等问题,知识图谱在聚合信息和汇聚知识、提供知识服务方面有其独特的优势。本文通过阐述图书馆知识检索服务理念,分析了图书馆构建知识图谱有利于完善馆藏文献知识体系,提供个性化知识服务,以及扩宽知识服务边界的意义,并认为需要在应用RDA编目规则深度揭示知识单元的基础上,才能构建一个良好的知识图谱体系。文章最后分别从数据收集、模型构建、信息抽取、知识融合四个阶段,论述了图书馆知识图谱架构过程,探讨了图书馆知识检索服务构建策略。

关键词 知识图谱 图书馆知识服务 RDA编目 个性化服务 知识检索

分类号 G250.71

DOI 10.16810/j.cnki.1672-514X.2020.12.008

On the Construction of Library Knowledge Retrieval Service Based on the Application of Knowledge Map

Chen Ge

Abstract Because readers are faced with the problems of “information overload” and “information lost”, knowledge mapping has its unique advantages in aggregating information, gathering knowledge and providing knowledge services. By expounding the concept of library knowledge retrieval service, this paper analyzes the significance of librarys construction of knowledge map in improving the collection literature knowledge system, providing personalized knowledge service and widening the boundary of knowledge service, and thinks that it is necessary to apply RDA cataloging rules to deeply reveal the knowledge unit, so as to build a good knowledge map system. Finally, the paper discusses the process of library knowledge map construction from four stages of data collection, model construction, information extraction and knowledge fusion, and discusses the construction strategy of library knowledge retrieval service.

Keywords Knowledge mapping. Library knowledge service. RDA cataloging. Personalized service. Knowledge retrieval.

在大数据时代,随着云计算、移动互联网、人工智能等信息技术的不断发展,各类信息呈爆炸性地增长,用户不得不面对“信息超载”“信息迷航”等问题。读者在使用图书馆时,也同样面临着海量的馆藏文献信息资源,无法将自己所需的相关主题图书和知识一并检索出来。为更好的满足用户的检索需求,图书馆可将知识图谱用于知识检索服务,将某一知识所相关的电子、网络及图书等资源进行描述和关联。当读者进行关键词检索时,图书馆集成管理系统能够以该关键词为核心对相关主题进行提取和归类,并按照关联的强弱程度以可视化图形方式将有关主题进行揭示,使读者在找到所需资源的同时,也能检索到大量与其相关的知识和文献,了解这一主题的相关研究、发展动态,并明确与其他研究方向的关系[1]。

1 图书馆知识检索服务构建知识图谱理念及意义

现阶段,图书馆在开展的各种形式阅读推广活动中,不仅通过书目推荐、名家讲座、读书知识竞赛等传统方式组织活动,也会通过微信及微博等新媒体移动服务平台宣传和实施阅读推广。但对于读者而言,无论是传统方法还是新媒体的阅读推广方式,都不能够很好地获得到所需的知识资源。笔者认为图书馆亟须通过知识图谱的构建来进一步引领知识的传承,扩展知识的深度和广度。

1.1 构建文献知识图谱,可以优化馆藏文献资源

大数据时代,读者往往焦虑的是信息泛滥和信息迷航,希望有一个良好的搜索引擎来帮助其精准搜索到所需的知识资源,厘清知识的脉络发展。简单地说就是读者在图书馆的检索引擎上输入关键词之后,就能够便捷地将图书馆内所有与关键词主题相关的书刊资料全部检索出来。因此,对于图书馆来说,不仅要集成本馆的文献信息资源,更要在满足读者的主题专指性文献检索需求的基础上,通过构建知识图谱来优化和改善OPAC搜索引擎功能,丰富知识搜索结果,提供精准服务。

基于知识图谱的搜索不同于常规的搜索,它会根据读者输入的“关键词”或“语句”的相关语义进行精准解构和分析,遍历图书馆已构建好的图谱知识库,并迅速将有关的文献数据概念集成起来,在通过筛选、排列、整理等一系列工作之后,寻找与其知识相关性匹配的图书资料内容。因此,在可视化图形技术的加持下,文献知识图谱的构建不仅能提高读者的查全率,更能够使图书馆有效追蹤知识演进与发展规律,完善馆藏文献知识体系,提高馆藏文献资料体系的连续性和系统性。

1.2 构建读者信息图谱,可以提供个性化知识服务

“数据驱动图书馆变革”在业界已形成共识,成为当前图书馆的发展趋势[2]。然而,当图书馆的数据只习惯应用于揭示孤立的单一文献资源时,只能满足读者对一本图书的需求,而将更多维度的数据信息进行对比、映射、支撑时,才有可能揭示更系统更深层的知识体系[3]。从这一层意义上讲,图书馆通过读者文献检索或借阅留下的信息行为痕迹,如检索数据、借阅图书内容,可以挖掘读者的兴趣、偏好、叠加掌握读者的主要关注领域和阅读需求,通过视觉化表达方式构建读者信息图谱,向读者展现图书馆馆藏文献资源中蕴含的深层次知识关联结构,进而在开展相关活动时,能够以读者需求为基准,为其提供更好的服务,促进图书馆的可持续发展[4]。如,燕山大学图书馆以知识图谱的形式发布了“2018 届毕业生阅读报告”,挖掘和展示了毕业生在大学四年的总体阅读情况和规律[5],又如,加拿大蒙特利尔麦吉尔图书馆设计的知识图谱用不同的色彩和图形描述了馆藏不同资源的数量及其与读者的阅读关系[6]。

总之,读者信息图谱的构建不仅可以为图书馆的管理和决策提供数据支撑,又因为包含了读者过往的检索、阅读数据而易于读者在输入“关键词”的基础上根据语义所包含的概念进行合理的关联与推荐,可为读者提供具有个性化的文献资料和学习资源。

1.3 构建数据链接图谱,可以扩宽知识服务边界

知识是人类在实践中认识客观世界(包括人类自身)的成果,从智慧传播为知识,从知识普及为信息,从信息变为记录的数据,其产生的过程也是一个不断演进的过程,可以说知识就是人类对于实践的不断总结归纳,并认为正确真实可以指导解决实践问题的观点、经验、程序等信息。在信息爆炸时代,读者由于信息的过载问题会更倾向于直观地获取知识,并且希望能够在某一知识单元节点上任意扩展阅读其他所想了解的知识内容。图书馆如果将读者所需的文献主题通过逻辑关系,以直观的图形方式展示知识单元的发展演绎脉络以及知识之间相互关联的结构,则可形成较为清晰的知识谱系,相较于文字的平铺直叙更能够展示知识的脉络,展示出某一主题的知识全景图[7]。那么,不同领域的用户在检索图書资料时,不仅可以获取自己专业的资源服务,还可以根据知识图谱的可视化链接,提高搜索引擎的可查找性,扩宽读者的知识边界,如党洪莉等学者在其所撰写的《美国蒙大拿州立大学图书馆知识图谱服务研究与启示》[7]中列举的“潇湘八景”资料就很好地阐释了通过知识图谱可获得大量的人文事实知识的设想。

2 实行RDA编目规则,深度揭示知识单元

图书馆要构建好知识图谱,其前提是必须对馆藏的实体纸质文献资源和电子文献资源所蕴藏的知识单元能够深度有效组织,并能够揭示各知识单元之间的逻辑关联。图书馆对于文献资源内容的传统揭示主要通过ISBD、CNMARC、分类法等通用规则对文献资源进行整序、聚类和编目,仅为读者提供一定范围内的书目资源,无法满足读者对于知识挖掘的追踪、扩展、发现需求。随着自然语言处理、知识融合和机器学习技术的发展,图书馆应该注重应用《资源描述与检索》(以下简称为RDA)的编目标准搭建抽象概念层级和关联数据模型,进行所有有意义的知识单元描述,构建知识数据描述关系的网络架构系统,深度揭示、组织和计算知识的关联内容[8]。

RDA是基于网络环境开发的资源描述与检索的新标准,可以描述印刷文字资料、图像、地图、音像资料等各种信息资源,也可以同其他资源著录与检索标准兼容[9],在编目思想上,突破了传统记录的平面结构,实现了实体属性联系的立体网状结构,最大限度地体现出为用户提供知识检索的便利思想。RDA可将检索点扩大到了所有能够用于著录和检索的具有语义表达的元素上,并且可以以任何数据格式进行完全独立地编码。从这一角度上看,RDA在描述和组织所有资源类型时,并不是一种编码规则,其本质就是用以记录实体书目数据以及实体间关系的数据元素集[9]。可以说,RDA只是用来指导如何记录资源内容的,是记录数据的内容标准,因此在已公布的RDA文本附录中所包含的RDA和MARC21书目格式、规范格式以及DC元数据的映射表中,不再把MARC视为最重要的元数据方案。然而由于MARC长久以来一直与AACR2配套使用,那么旧MARC格式必定有许多与RDA编目规则不适应的地方,于是,我国在2011年度国家社科基金课题“《资源描述与检索》的中文化及其应用研究”阐述了中文编目应用RDA的操作问题,同时为方便用CNMARC编目时查询相应的RDA规则,制作了CNMARC与RDA的对照表。

RDA概念模型下的检索功能最终依赖于图书馆检索服务平台的展示,聚焦于读者检索文献资源过程中对于知识发现的体验感受,因此,图书馆在深度揭示知识单元,将RDA编目规则应用于图书馆检索服务平台时,需要在功能设计上根据图书馆的本地化编目策略,构建适合中国国情和编目实践的工具包,提供类似RDA Toolkit桌面式编目功能界面,在能够提供集检索与注释一体化的用户界面的基础上,与应用旧编目规则的数据相兼容,支持多途径检索需求[10]。目前,RDA正在世界范围内被广泛应用,成为资源编目发展的方向,有些图书馆也已经开始使用RDA进行资源编目。我国的上海图书馆率先于2012年成立RDA小组,已经在外文采编与境外合作中对西文资源以及部分中文资源进行RDA编目,并已经向OCLC提交了RDA原始编目数据[10]。CALIS于2014年11月29日发布《CALIS联合目录RDA实施声明》,鼓励成员馆上传采用RDA规则编目的外文(日文、俄文除外) MARC数据。重庆大学图书馆所建立的“纸电合一”图书馆目录,也采用了RDA编目,可以说实现了以“知识图谱”组织管理资源的基础性工作[11]。

3 图书馆知识检索服务平台知识图谱架构

由于图书馆的数据是以结构化、非结构化和半结构化数据形式存在于各类文献资源和读者检索、借阅数据资源中,要将这些数据作为原始数据搭建知识图谱,图书馆需要实行馆藏资源RDA编目,通过一系列的技术手段进行描述、整理、分析、归纳、总结,挖掘、构建出数据模型及其数据,经人工审核之后,形成各类关联知识库,并随着数据的不断积累对数据再进行分类、提炼,关联,通过数据和数据模型的迭代更新,才能构建一个不断修改的、完善的、动态的知识图谱。知识图谱按照实现过程,可将其分为数据收集、模型构建、信息抽取、知识融合四个阶段[12]。

首先,明确数据来源,保证知识图谱中信息收集的完整性。在收集数据过程中,应以图书馆各个系统为基础,根据不同的数据类型,采用不同的方法进行处理,保证语法的规范化,数据的正规化,如日期的表示方法,空格移除、语言符号不规范,用正式名字替换昵称和缩写等,为后续可视化图形的形成奠定良好的数据基础。

其次,构建各类信息本体或关联模型,对构建的各类数据基本信息进行确定。从目前发展现状来看,可以采取自上而下建模方式,在对数据进行标准化、统一化处理的同时,尤其在细节方面进行属性、逻辑层次刻画,以保证后续作业的顺利展开[13]。在此过程中,可以使用构建本体模型的Protege编辑器软件进行数据单体模型、资源关联模型、资源与用户关联模型等多个模块的构建,将原来孤立、碎片形态的信息联接起来,形成相互既独立又有联系的有机整体。

再次,对文献与读者信息进行抽取。在读者信息抽取中,以读者信息的本体模型为基础,按照读者需求对其相关信息进行抽取,有针对性的提取读者需求相关的信息数据。在此过程中,主要使用筛选法、理解法以及归纳法对来源不同的读者信息进行实体抽取,并将其存储在信息库中。在文献信息抽取过程中,一般应以检索词所要表达的语义特征为基础,且涵盖关系、属性抽取,从关联模型图中,抽取出关联模型的逻辑架构。对于关系抽取而言,主要是以关系的“触发词”为基础,匹配相对应的读者信息行为特征,明确读者的需求,以及学科、研究领域、研究热点之间的关系,从复杂的数据中揭示读者、各个知识单元方面的关系,解决链接问题,形成实体间的关联结构;而属性抽取主要指的是以特定信息属性为采集基础,对读者及其所检索的文献语义属性之间的关系进行准确揭示。

最后,在对数据信息进行抽取后,应对其进行知识融合。知识融合是将多个知识库中的知识进行整合,其核心是将来自多个来源的关于同一个实体或概念的描述信息融合起来,在同一框架规范下进行整合、消歧、加工、推理验证及更新等步骤,形成高质量的知識服务提供。在这个过程中,主要解决的问题就是实体对齐,其主要过程在于信息聚类、信息更新以及信息结果输出。对于信息聚类而言,可以使用K-均值算法对读者需求信息进行分析,并通过矩阵的形式对相关数据信息赋予权重,之后按照权重对其进行聚类计算,进而对读者搜索的信息之间的关系进行强弱程度的判断,再按照关联程度展现直观的可视化图形。当对其进行更新时,主要就是对聚类中心进行重新计算,完成后进行结果输出,从而将完整的知识图谱呈现在读者面前。在构建完知识图谱后,应对知识图谱的可视化表现进行检验,主要检验内容是读者与主题、学科之间的关系、文献之间的隐性联系,确保呈现给读者的知识图谱清晰化和准确化。

4 结语

知识图谱不同于普通知识库,其本质上是将相关主题领域的知识体系化、关系化,并通过逻辑关联用图的方式可视化出来[8]。图书馆为了更好地服务于社会,最大限度地满足读者需求,应不断引入深度学习模型,深化和扩展知识图谱,使图书馆数据语义化,为读者提供更广度、更深度的知识体系并不断扩充。目前,图书馆基于知识图谱的知识检索服务还只是辅助读者完成馆藏文献的检索工具,相信伴随着新技术的飞速发展,未来知识图谱在图书馆领域的应用研究会越来越多,知识图谱在图书馆知识服务系统中的应用将会取得更多的服务成果,更好地促进和提升图书馆智能化和个性化服务能力。

参考文献:

卢恒,张向先,尚丽维,等.基于知识图谱的网络社区学术资源深度聚合框架研究[J].情报理论与实践,2020(12):1-13.

唐斌. 图书馆精准服务:
内涵、机制与应用[J]. 图书馆工作与研究,2017(5):9-13.

彭兰.“信息是美的”:
大数据时代信息图表的价值及运用[J]. 新闻记者,2013(6):14-21.

王岩,蒿兴华,薛鹏.基于共词分析和社会网络分析的关联数据知识图谱构建分析[J].数字通信世界,2020(6):148,150.

燕山大学图书馆.2018 届本科毕业生阅读报告[EB/OL].[2019-07-25].http://library.ysu.edu.cn/content.aspx?id=1438&caid=1.

McGill Library and Archives Fun Facts[EB/OL].[2019-08-16].http://news.library.mcgill.ca/mcgill-libraryand-archives-fun-facts/.

党洪莉,谭海兵.美国蒙大拿州立大学图书馆知识图谱服务研究与启示[J].新世纪图书馆,2020(5):76-80.

刘炜,林海青,夏翠娟.数字人文研究的图书馆学方法:书目控制与文献循证[J].大学图书馆学报,2018(5):116-123.

李瑜,戚红梅,贾宇群.RDA背景下的图书馆编目工作变革与创新研究[J].当代图书馆,2017,129(1):16-18.

翁畅平.国内图书馆RDA应用研究[J].河南图书馆学刊,2016(1):107-109.

王彦力,杨新涯,罗丽.纸电合一的图书馆目录创新应用与发展[J].图书情报工作,2019(1):105-110.

傅春平.知识服务体系的技术实现:以福田区图书馆“选书帮”为例[J].四川图书馆学报,2020(4):63-67.

王晓云,杨子煜.基于科研本体的国防科技知识图谱构建[J].中华医学图书情报杂志,2018,27(7):6-13.

陈 戈 南京图书馆馆员。

江苏南京, 210018。

(收稿日期:2019-10-20 编校:刘 明,陈安琪)