线性文化遗产信息资源实体的RDF描述及其实现

刘美杏 徐芳

摘 要 本研究以线性文化遗产的古文化遗址类信息资源实体为例,采用实地观察、访谈、二手数据等方法收集数据,应用关联数据技术,对其进行RDF描述;验证关联数据环境下线性文化遗产信息资源实体数字化及其RDF描述的可行性。结果表明,关联数据能够较好地描述资源的属性特征及揭示资源之间的关联关系,对于线性文化遗产资源的数字化保护具有重要意义。

关键词 线性文化遗产 潇贺古道 古文化遗址类信息资源 RDF

分类号G254

DOI 10.16810/j.cnki.1672-514X.2020.12.009

RDF Description and the Implementations of Linear Cultural Heritage Information Resource Entity

Liu Meixing, Xu Fang

Abstract In this study, taking the ancient cultural relic information resource entity as an example, the data were collected by field observation, interview, second-hand data and other methods and RDF description of them was made by using linked data technology. It verifies the feasibility of digitalization of the ancient road linear cultural heritage information resource and its RDF description in the context of linked data. The empirical results show that the linked data can better describe the attribute characteristics of resources and reveal the relationship between resources, which is of great significance for the digital protection of linear cultural heritage resources.

Keywords Lineal cultural heritage. The Xiao He Ancient Road. Ancient cultural relics information resources. RDF.

0 引言

線性文化遗产(Lineal or Serial Cultural Heritages)

是国际文化遗产保护领域基于欧洲“文化线路”提出的一种文化遗产保护理念,特指道路、峡谷、运河和廊道等呈线状或条带状分布的文化遗产族群[1]。作为线性文化遗产重要组成部分之一的古道,是区域经济和文化发展的重要历史见证者,对古代文明传播及社会变迁等诸多方面的研究具有重大意义[2]。近年来,图书情报学界关注的关联数据为此提供了一个契机,不仅有利于线性文化遗产信息资源存储框架的构建与相关体系的标准化,还有利于拓宽文化信息共享范围,推动资源的管理与开发利用。

目前国内关于关联数据方面的研究较为丰富,呈现出两个趋势。一方面,图书情报学界对关联数据的研究开始由理论研究转向应用研究,如白林林等[3]关于中文古籍书目的关联数据模型发布研究;夏翠娟等[4]以家谱数据作为起点,利用关联开放数据技术重组图书馆传统资源,构建历史文献数据服务平台;祝帆帆等[5]不仅将关联数据技术应用于馆藏文物资源的描述与发布,还将其扩展应用于文物数据的实际管理。另一方面,对关联数据应用领域的探究正在逐渐拓展,如徐潇洁等[6]将关联数据应用于以水稻基因为例的农学科学实验数据语义描述及存储;刑启迪等[7]从法理学角度构建起多层次、全方位的关联法律数据网;陈雅玲等[8]着眼于音乐开放数据关联描述模型的实际应用;张乐等[9]实现了建筑学中民国建筑知识库关联数据的组织聚合与发布;刘美杏等[10]则针对线性文化遗产信息资源组织方式存在的缺陷,构建了相应的关联数据模型。本研究尝试将关联数据相关技术引入线性文化遗产资源领域,并从其子领域古道线性文化遗产领域着手,以潇贺古道古文化遗址为例,应用关联数据相关技术,对其所属的古文化遗址类信息资源实体进行RDF描述,验证古道线性文化遗产信息资源数字化保存及开发的可行性,以期为该类线性文化遗产的数字化保护提供一个新方向。

1 关联数据与线性文化遗产信息资源实体

关联数据[11]采用RDF描述语言,以统一资源标识符 (Uniform Resource Identifiers,URIs) 来标识事物,并用RDF链接实现语义互联,使得机器可以理解Web资源的含义及其相互关系,从而实现资源互联、共享与高效管理。从技术上而言,运用关联数据只需要遵循以下两条基本准则:一是数据的发布必须利用RDF数据模型;二是异构数据的链接必须使用RDF[12]。RDF已成为关联数据在Web上发布、交换、共享及互联的重要基石。

资源描述框架(Resource Description Framework,

简称RDF)是W3C提出的一种用于描述网上资源的简单数据模型,通过主体(Subject)、谓词(Predicate)、客体(Object)这一通用的三元组框架描述资源及其属性特征[13]。在Berners-Lee提出的语义网体系架构中,RDF层属于数据层,作为语义网信息描述与表达框架的RDF主要对底层URI标识的对象进行陈述,以数据模型方式表达数据语义,解决下层XML存在的语义局限问题,同时为实现上层的数据组织与集成提供一套解决方案[14-15]。

目前国际上普遍采用《世界遗产公约》中对文化遗产的定义,即“从历史、艺术或科学角度看,具有突出的普遍价值的建筑物、碑雕和碑画、具有考古性质成份或结构、铭文、窟洞以及联合体;从历史、艺术或科学角度看,在建筑式样、分布均匀或与环境景色结合方面具有突出的普遍价值的单立或连接的建筑群;从历史、审美、人种学或人类学角度看,具有突出的普遍价值的人类工程或自然与人联合工程以及考古地址等地方”[16]。从定义不难看出,文化遗产基本可认定为有形文化遗产,线性文化遗产则进一步强调了文化遗产分布的形态、规模及密度,可定义为与道路、峡谷、运河和廊道等呈线状或条带状分布的有形文化遗产族群相关的有用信息的集合,既包括直接的数据信息,也包括间接传递信息的各种形式和各类媒介集合。

本研究所指的线性文化遗产信息资源实体即为上述信息资源形式的具体体现。以下文具体描述对象古道线性文化遗产为例,就可体现为建筑、碑刻、雕塑等三维可视化资源实体,古籍、拓片、手稿等传统文献资源实体以及各类音视频数字资源实体等。

2 线性文化遗产信息资源实体RDF描述

RDF包括RDF模型和RDF语法两个部分。RDF模型由资源(Resource)、资源属性(Property)和语句(Statement)三个部分组成[17],所有能以RDF语言来描述的事物(如:可通过网络访问的网页资源、不可通过网络访问的实物资源等)都是资源,可充当三元组框架中的主体或客体;标识资源属性的部分则充当谓词;而一个完整的三元组就是RDF语句,模型可用三元组、自然语言、XML或图示法等多种方法表示。为了便于数据描述与交换,以XML语法为基础的RDF发展出序列化语法和简略语法两种XML语法,并可自由混合使用[18]。下文使用RDF/XML语言为相关资源实体进行编码,并在借鉴现有研究成果的基础上,本文将关联数据环境下的资源实体RDF描述大致分为建模、描述和关联三个过程,如图1所示。

图 1 RDF描述流程

建模为第一阶段,主要完成RDF模型结构的设计,基于建模目标需求分析并确定所需描述的对象及其各自角色定位(主体、谓词还是客体)。设计完成后进入描述阶段,该阶段的工作是根据前一阶段设计的模型,分析各对象之间的逻辑关系并编写相应的RDF代码,完成对该资源实体初步的RDF描述。代码检验无误进入最后的关联阶段,即确立该资源实体与其他资源实体的相互关系,构建起数据互联之网,以充分发挥和挖掘资源实体的内在价值。

2.1 建模

资源、属性和语句是RDF三大基本建模元素。首先需要确定待描述对象,即锁定RDF模型中资源的选取范围。结合线性文化遗产特性及实地考察情况,我们认为,线性文化遗产的描述对象如下表1所示。

以表1为例,若要描述“古道线性文化遗产可视化艺术实体包括古建筑、古文化遗址、古墓葬、石刻雕塑、手工艺品和其他”,则资源“古道线性文化遗产”是这个RDF模型的主体,标识为“/Linearheritage/0001”。资源属性“可视化艺术实体”充当谓词;资源“古建筑”等具体对象为客体,依次标识为“/arts/Gujianzhu”“/arts/Guwenhuayizhi”“/arts/Gumuzang”“/arts/Shikediaosuo”“/arts/Shougongyipin”和“/arts/……”。因為此RDF模型中的属性有多个值,并且值是一个无序的常量列表,故采用RDF定义的包(Bag)容器建模,用“type”性质予以声明。容器资源(图中用无标识椭圆表示)与艺术实体资源集合中的资源之间的关系性质先简单命名为“_1”、“_2”、“_3”等等。该RDF模型如图2所示。

2.2 描述

该阶段主要包括资源实体URI命名和RDF描述两个环节。

统一资源标识符(Uniform Resource Identifier,URI)是一个能够唯一地标识Web上任意一个资源实体名称的字符串,包括信息资源(如网页资源、文档资源)和非信息资源(如实物、人或抽象概念)[19]。该环节主要是赋予资源实体一个Web可访问的名称,以规范资源实体的命名及管理。由于上文所述的可视化艺术实体、传统文献实体和数字化资源等实体对象与一般可被网络协议直接引用的网络资源有所区别,为保证实体对象资源的网络可访问性,Web架构提供了Hash URIs和303 URIs两种访问方式[20]。鉴于前者仅适用于访问三元组数量较少的小型RDF文档,无法满足线性文化遗产庞大的数据访问需要,研究中主要采用303 URIs方式(即以带“/”分隔符的标识符)命名相关实体。为做进一步示范,此处暂时将线性文化遗产URI定义为“http://www.ch.cn”,其下的古道线性文化遗产的URI标识为“http://www.ch.cn/Linearheritage/0001”。

RDF描述环节则是将模型中的数据元素转换为关系语句,使其达到计算机可理解的程度,以为后续的关联做好准备[21]。下面使用初步完成的RDF模型(图2)作为RDF描述示例,具体描述如下:

<?xml version=“1.0”?>

xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:s=“http://description.org/schema#”>

http://www.ch.cn/arts/Gujianzhu

http://www.ch.cn/arts/Guwenhuayizhi

http://www.ch.cn/arts/Gumuzang

http://www.ch.cn/arts/Shikediaosuo

http://www.ch.cn/arts/Shougongyipin

http://www.ch.cn/arts/……

当描述完成后可使用W3C官方的RDF验证服务器[22]进一步核查该描述的正确性,以上RDF代码经检验后无误,进行第三步关联。

2.3 关联

前两个阶段已经初步完成了单个资源实体RDF描述的工作。这一阶段主要是在关联数据环境下,将物理上松散无序的各资源实体通过RDF链接整合为一个逻辑互联的有机整体。通过前面的命名与描述阶段,各个异构实体已统一于RDF描述标准框架下,并有了各自的可供Web访问的URI标识。关联阶段则需要利用RDF Link将它们相互连接起来,更好地揭示资源之间的关联关系,以便促进资源的有效管理与利用,实现各类数据集之间的知识发现与共享,此阶段是RDF描述流程中的重要阶段。

根据上文示例,该阶段的工作主要是将已经描述好的“古道线性文化遗产”资源实体与“线性文化遗产”“运河”“峡谷”和“廊道”几个资源实体进行RDF关联。由表1可知,“线性文化遗产”资源实体与其他几个资源实体之间是类与子类的关系。为了更好描述这一关系,研究将引入RDF词汇描述语言(RDF Schema)的class定义完成描述。下面仅以“古道线性文化遗产”资源实体为例展开RDF描述:

① <?xml version=“1.0”?>

③  xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”

④  xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#”

⑤  xml:base=“http://www.ch.cn#”>

⑥ 

⑦ 

⑧   

⑨ 

其中,第⑥行ID“ch”代表“线性文化遗产”资源实体,第⑦行ID“Linearheritage0001”代表“古道线性文化遗产”资源实体,第⑧行则表达了“古道线性文化遗产”资源实体是“线性文化遗产”资源实体子类这一含义,最终的各实体关联如图3所示。

关联阶段有助于实现庞杂资源的高效记录、有序组织与有效关联。这既可促进遗产资源的数字化保护,大幅度提高古道线性文化遗产资源的管理与利用效率;又便于数据挖掘和知识发现,有助于进一步挖掘和提升古道线性文化遗产资源的潜在价值与应用价值。

3 潇贺古道古文化遗址RDF描述

3.1 数据建模

潇贺古道,始于春秋战国时期,因其特有的地理位置成为历代兵家必争之地;同时也是古代“海陆丝绸之路”主要通道之一,具有重大的历史意义和研究价值。根据本系列已有研究可将古文化遗址划分为城址遗址、聚落址、洞穴遗址、建筑遗址和陶窑遗址等七类[23]。而根据目前已采集的数据,城址遗址在潇贺古道古文化遗址中数量最多,数据较为全面,研究价值较大;在城址遗址中又以东坪古城遗址为首。故下文选取城址遗址中的东坪古城作为描述主体,标识为“Dongping”。结合已采集的相关数据,需描述该主体的名称、建立时间、相关人员信息、地理位置和实体描述等属性。由于资源主体属于三维可视化实体,引入VRA Core词表辅助描述,人员信息和地理信息的RDF描述则使用RDF词表中的FOAF元数据元素集和GeoNames词表。东坪古城遗址的RDF模型如图4所示。

以VRA Core的title元素标识资源名称,date元素记录资源实体出现时间,agent元素记录该资源实体的历史所有者,description元素描述其历史资料。其中,关于该资源实体的历史所有者则使用FOAF元素集中Person子类下的gender、title和made元素進一步描述人物性别、头衔和历史功绩属性。地理位置属性方面,以GeoNames词表的name、countryCode、latitude和longitude四个元素记录资源实体地名、地区代码、纬度和经度属性值。

3.2 实体描述

根据303 URIs命名原则和Berners-Lee提出的关联数据环境下URI命名模式,结合上文URI地址,以http://www.ch.cn/Linearheritage/0001/Dongping作为东坪古城遗址URI,完成的RDF描述如下:

<?xml version=“1.0”?>

xmlns:vra=“http://purl.org/vra/”

xmlns:foaf=“http://xmlns.com/foaf/0.1/”

xmlns:gn=“http://www.geonames.org/ontology#” >

东坪古城

公元480年

东坪古城现仅存遗迹,作为县治延续了约490多年。城址废弃时间长达1000多年。

萧道成

南朝齐高帝

南朝齐开国皇帝

贺州市公会镇东鹿村

451100

24.374171

111.60379

使用W3C官方验证服务器对上述RDF描述加以检验,经检查代码无误。

3.3 实体关联

在实体关联环节,以东坪古城为出发点确立相关联的各资源主体,包括城址遗址、古文化遗址和古道线性文化遗产。其中,资源主体东坪古城是城址遗址这个类的一个实例,用type性质描述。城址遗址又与建筑遗址、聚落址、洞穴遗址及陶窑遗址共同构成了古文化遗址的取值范围,用range性质描述。而古文化遗址又是古道线性文化遗产的一个子类,以subClassof表示;根据类属关系,东坪古城也是古道线性文化遗产的一个实例。上述资源实体的相互关联情况如图5所示。

依据上述关系模型进行RDF描述,则东坪古城的实体描述语言程序如下所示:

<?xml version=“1.0”?>

xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#”

xml:base=“http://www.ch.cn/Linearheritage/0001#”>

城址遗址,建筑遗址,聚落址,洞穴遗址,陶窑遗址

上述代码经检验无误后,东坪古城遗址资源实体将和与之相关的资源实体建立起有效链接,并形成互相联系的统一整体,最终关联示意图如图6所示。

4 结语

作为文化遗产的一种重要类型,线性文化遗产近年来逐渐受到國内外的关注和重视,我国目前已知的线性文化遗产就长达二十多万公里。如何保护、管理和利用我国丰富的线性文化遗产资源,最大程度地发挥其在当代社会的效用值得深思。本文结合图情专业特色,运用关联数据相关技术,从古道线性文化遗产领域切入,设计了RDF描述三步流程,即建立数据模型、标识资源URI及描述RDF模型和实现资源实体关联。研究还以潇贺古道古文化遗址资源实体为例,进行了详细的RDF描述,较为全面地揭示了资源的属性特征及相关资源实体的关联关系,检验了本研究设计的RDF描述流程的效度,验证了古道线性文化遗产资源在关联数据环境下实现数字化保存和管理的可行性。

然而,相较已经拥有较为成熟管理体系的欧美国家,我国对于线性文化遗产的研究起步较晚,很多理论尚不成熟,应用实践方面也面临诸多问题。本文设计的方案也仅是基于实地考察和专业基础上进行的探索,能否与整个古道线性文化遗产资源体系,又或能否与上层庞大的线性文化遗产资源体系相契合,以及在具体开展过程中面临的挑战都尚不可知,该方案仍有待进一步实践检验。而随着RDF描述的完成,大量RDF数据产生,RDF数据的存储和查询将会成为今后数据管理中的重要工作。近年来,AI在自然语言处理领域的迅猛发展也为其提供了Dydra、Jena、Algebraix和RDF4J等多类存取一体化RDF数据库。在实践条件允许的情况下,后续研究将对上述RDF数据库的数据存储、后端运行和连接查询等应用情况进行测试与评估,推动研究理论实践化。同时,也会进一步探索关联数据技术在古道线性文化遗产资源保护与开发领域的应用,以期为古道线性文化遗产资源的数字化描述、保存、管理、开发与利用提供系统的思路与方案,进而为线性文化遗产资源的数字化保存与可持续利用,线性文化遗产的数字人文研究等方面提供一些参考。

参考文献:

任唤麟.跨区域线性文化遗产类旅游资源价值评价:

以长安-天山廊道路网中国段为例[J].地理科学.2017

(10):1560-1568.

王玮.线性文化遗产的保护与利用:关于奉化境内古道开发的探讨[J].博物馆研究,2016(3):79-86.

白林林,祝忠明.基于Drupal的中文古籍书目关联数据发布研究[J].图书情报工作,2017,61(4):123-129.

夏翠娟,刘炜,陈涛,等.家谱关联数据服务平台的开发实践[J].中国图书馆学报,2016,42(3):27-38.

祝帆帆,高劲松,梁艳琪.馆藏文物资源关联数据的创建与发布:以中国十大绘画为例[J].图书馆理论与实践,2018(4):96-101.

徐潇洁,何琳,陈雅玲,等.面向关联数据的科学实验数

据语义描述模型研究:以水稻基因实验为例[J].图书馆,2017(1):61-66.

邢启迪,耿骞,赵盼云,等.法律文献资源关联模型设计与应用研究[J].图书情报工作,2017,61(10):131-140.

陈雅玲,何琳.基于开放关联数据的音乐资源整合研究[J].图书馆杂志,2018,37(9):86-95.

张乐,常娥.基于Drupal的民国建筑知识库关联数据的组织与发布研究[J].图书馆学研究,2018(19):64-70.

刘美杏,徐芳.古道线性文化遗产信息资源关联数据模型构建及其实证研究[J].图书馆学研究,2019(14):40-50.

BERNERS-LEE T. Linked data:
design issues [EB/OL].

[2020-05-24]. http://www.w3.org/DesignIssues/Linked

Data.html.

夏翠娟,刘炜,赵亮,等.关联数据发布技术及其实现:以Drupal为例[J].中国图书馆学报,2012,38(1):49-57.

RDF[EB/OL]. [2020-05-24]. https://www.w3.org/RDF/.

BERNERS-LEE T, HENDLER J, LASSILA O. The Semantic Web[EB/OL]. [2020-05-24].https://www.scientificamerican.com/article/the-semantic-web/.

BERNERS-LEE T. Weaving the Web:
the original designand ultimate destiny of the world wide web[M]//Weavingthe Web:
the original design and ultimate destiny of theworld wide web by its inventor. HarperCollins Publishers,2001:1-226.

Convention concerning the protection of the World Culturaland Natural Heritage 1972[EB/OL].[2020-05-24].http://portal.unesco.org/en/ev.php-URL_ID=13055&URL_DO=DO_TOPIC&URL_SECTION=201.html.

葉继元.信息组织[M].2版.北京:电子工业出版社,2015:320-322.

宋炜,张铭.语义网简明教程[M].北京:高等教育出版社,2004:59-65.

白海燕.关联数据及DBpedia实例分析[J].现代图书情报技术,2010(3):33-39.

SAUERMANN L, CYGANIAK R. Cool URIs for the semantic web:
W3C interest group note 03 December 2008[EB/OL].[2020-05-24].http://www.w3.org/TR/cooluris.

BILLEY A, RENDALL R, WESLEY K. Foundations in linked data for serialists[J]. The Serials Librarian,2019,76(1-4):1-14.

Validation service [EB/OL]. [2020-05-30]. https://www.w3.org/RDF/Validator/.

刘美杏,徐芳.古道文化遗产信息资源元数据标准制定:以潇贺古道为例[J].情报资料工作,2019,40(4):77-83.

刘美杏 武汉大学信息管理学院硕士研究生。

湖北武汉,430072。

徐 芳 苏州大学文正学院教授,苏州大学社会学院教授、情报学硕士生导师。

江苏苏州,215123。

(收稿日期:2020-06-03 编校:陈安琪,左静远)