摘 要:
非物质文化遗产领域蕴含着丰富的知识, 是中华传统文化的重要组成部分, 对非遗知识的有效组织与管理, 是非遗文化保护、传播与传承的前提和基础。本体与关联数据技术为非遗知识的组织与管理提供了新的方法和实现路径。本文首先分析梳理了非遗领域知识的要素与语义关系, 设计构建了非遗知识本体模型, 以规范和揭示非遗领域知识的概念、属性和关联关系;其次, 基于关联数据技术, 研究非遗知识组织与关联数据集构建的过程, 包括实体RDF化、实体关联、关联数据存储与发布等关键步骤;最后以湖北省非遗项目为例, 构建了非遗知识关联数据集与知识服务平台。关联数据技术在非遗知识组织与管理领域的应用, 能够促进非遗知识管理的规范化和标准化, 对我国非遗文化的保护与传承具有重要的意义。
关键词:
非物质文化遗产; 关联数据; 本体; 知识管理; 知识组织;
引言
非物质文化遗产 (以下简称“非遗”) 作为各民族优秀传统文化的重要组成部分, 彰显着地域的特色, 蕴含着群体的智慧, 对于每个国家都是不可再生的文化财富。非遗文化的表现形式多样, 涉及领域广泛, 蕴含着丰富的知识。对非遗领域知识进行结构化表示与语义化组织, 是知识时代对非遗文化保护与知识传播的必然要求。然而, 中国非遗网及各省市非遗传播平台在对非遗知识进行管理时, 仅以列表的形式展示非遗项目与代表性传承人的信息, 缺少项目与传承人、项目与地区等知识要素之间的关联;非遗领域知识由于缺乏有效的组织和管理, 造成了信息的碎片化, 大大限制了知识的完整性与可传播性。同时, 在非遗垂直领域缺少专业的知识型关联数据集, 尚未形成成熟的非遗百科类知识库。虽然国内在通用领域的中文百科知识图谱研究方面取得了一定成果, 包括zhishi.me (东南大学) 、CN-DBpedia (复旦大学) 、PKUPie (北京大学) 、Xlore (清华大学) 等中文百科知识图谱;OpenKG也正在促进这些百科类知识图谱的开放与互联[1]。但在中文知识百科领域, 缺少像DBpedia、Freebase等大型百科知识型数据集。由于非遗领域数据仍以半结构化数据与基础数据库为主, 碎片化的数据较多, 缺乏高质量的非遗开放数据集;对非遗知识单一线性的组织, 无法体现非遗文化的多元特征, 无法满足多维度揭示与知识检索的需要[2]。这限制了对非遗的科学研究, 也限制了非遗知识的传播和对非遗文化的传承。
传统的非遗项目的知识管理方式主要依据主题、地域与级别等进行分类归档, 组织单元的颗粒度较粗, 组织模式是线性的、一维的;非遗领域知识元素的语义化程度较低, 无法充分表达与揭示知识元素之间的关系。随着知识组织与知识管理研究的深入, 非遗领域知识的管理向主题图谱、知识图谱、语义组织等新型组织方式发展, 更加注重领域知识间关系的多维度揭示。尤其是语义网技术堆栈中的本体与关联数据技术为非遗领域知识的语义组织提供了新的解决思路和方案。关联数据被看作是语义网的轻量级实现, 其以关联开放数据的形式聚合异构的信息资源, 能够提高资源与知识的可见度、共享性和开放性。基于关联数据对非遗知识的组织与管理, 是在规范统一的领域本体模型的指导下, 以结构化、形式化方式表达非遗领域知识元素及其属性, 并构建知识元素之间的语义关系, 进而达到知识的语义化与有序化的目的, 并提供开放的数据获取和知识服务。
基于此背景, 本文针对非遗知识的有效管理与知识关联问题, 提出基于关联数据的非遗知识组织与非遗知识关联数据库构建的方法体系, 包括从非遗知识本体模型设计到关联数据构建、存储与发布的整个过程;研究将非遗领域内部关联数据集与DBpedia及GeoNames外部知识型数据库进行知识关联, 建立一个拥有丰富语义关系、知识互联共享的非遗知识关联数据库, 提供领域知识的有序组织及知识可视化。并以湖北省非遗项目为例, 将非遗项目有关的知识进行关联聚合, 构建了非遗知识关联数据集与服务平台。在数字人文研究背景下, 通过对非遗知识组织与管理的深入研究, 以期为我国非遗知识的组织与管理以及非遗文化的保护与传播提供参考。
1 非遗领域知识本体研究与关联数据技术应用现状
非遗领域知识涉及的内容丰富, 文化形态多元, 但是由于缺少详尽的分类体系标准, 导致非遗知识组织的程度较低, 非遗领域知识无法得到有效的管理。如何将海量、零散的非遗知识按照知识的内在关系进行表示与组织, 成为亟待深入研究的问题。随着语义网的发展, 一些研究者已经将本体及关联数据的理论与方法引入到非遗知识组织和知识管理领域, 在本体构建、资源整合、资源组织等方面开展了大量的研究。在非遗领域知识结构分析与本体构建研究方面, 蔡璐等[3]从系统论角度分析非遗的各要素, 构建了由非遗项目类、人物类、事物类、事件类以及文献类等核心概念组成的本体概念模型, 并制定非遗资源的元数据标准与规范。黄永等[4]分析了非遗知识本体构建的难点, 以民间舞蹈为例设计了面向文本与多媒体数据的非遗知识本体构建系统。滕春娥、王萍[5]基于本体理论从非遗项目及人物、事件、文献等维度对赫哲族非遗信息资源进行组织与整合。周耀林等[6]以本体方法为研究视角, 从本体表示与语义组织、语义检索两个层面, 设计了非遗信息资源组织与检索框架, 以戏剧类非遗项目为例实现非遗信息资源本体的构建。此外, 国内学者针对不同类型的非遗项目, 对知识本体的构建与应用进行了探索。比如, 郝挺雷[7]、胡骏等[8]和隗昊[9]研究端午节、盘王节等传统节日领域知识本体的设计与构建方法。综上, 学者们从不同角度或针对具体的非遗细分领域提出了许多有价值的非遗领域本体模型。目前, 国内对非遗领域本体的研究处在起步阶段, 虽然取得了一定的成果, 但尚未形成统一规范、完善的知识组织本体模型。现有的研究多针对非遗信息资源的组织, 缺少在知识层面的分析和研究, 没有突出非遗领域知识内部之间以及与外部知识的关联性, 造成非遗项目蕴含的知识内容孤立与流失。
在关联开放数据的环境下, 越来越多的领域资源和数据以关联数据的方式提供开放访问服务, 关联开放数据云图中的数据集逐年增长。关联数据技术的优势为非遗知识管理与信息资源的聚合, 提供了强有力的工具和技术手段。王燕红[10]梳理国内基于关联数据的资源整合研究现状, 发现基于关联数据的资源整合集中应用在网络信息资源、数字图书馆、书目资源等领域, 呈现出从理论研究向应用研究发展的趋势。戎军涛[11]对基于关联数据的知识组织深度序化机制进行了研究, 认为关联数据为知识组织的深度序化提供了实现路径和基础。翟姗姗等[12]对非遗数字资源内容的语义表达、知识单元关联揭示的问题进行研究, 提出了面向非遗传承和传播的多维度研究框架。李姗姗等[13]针对非遗档案资源, 提出了基于关联数据的非遗档案资源开发模型。董坤[14]利用关联数据技术对非遗知识进行语义化组织, 实现了对非遗资源及其关系的语义化揭示与组织。仝召娟等[15]基于关联数据对非遗数字资源聚合进行研究, 实现对来源异构、内容异构的非遗数字化资源的整合与聚合, 使数字化资源有序重组, 更好地得到利用。此外, 关联数据技术在数字人文领域也得到了广泛瞩目和应用, 出现了大量的利用关联数据实现数字人文服务的项目[16]。从上述研究中可以看出, 利用关联数据技术针对非遗数字化资源的研究较为丰富, 主要集中在非遗数字资源的聚合、数字资源内容的语义揭示等方面。但在非遗知识管理与知识组织方面, 缺少系统性的研究, 非遗领域知识也较少以关联数据的方式进行组织与管理。在实践应用方面, 尚缺乏可供非遗领域参考的标准化、批量化、可供操作的关联数据应用方案, 非遗知识亟待有效的组织与管理。
在借鉴国内外相关研究成果的基础上, 本文从知识组织与知识关联的角度, 研究基于关联数据技术的非遗知识管理与知识关联的方法, 并构建非遗知识库, 实现非遗知识表示、知识可视化等创新性知识服务。首先, 分析非遗领域知识的结构, 梳理非遗项目之间、项目与传承人以及项目与地域等领域内部知识要素之间的关联关系, 构建了非遗知识本体模型。其次, 研究基于关联数据技术的非遗知识组织与知识库的构建过程, 包括实体RDF化、实体关联、数据存储与发布等核心过程。在此基础上, 研究与DBpedia、GeoNames外部关联数据库的知识关联, 最终构建非遗知识关联数据库, 促进非遗领域知识关联与知识发现。最后, 在非遗知识关联数据库的基础上, 提供非遗知识的浏览、关联可视化表达等创新性知识服务。采用本体与关联数据技术规范描述非遗领域的知识, 能够提高非遗知识的关联性、开放性与可见度, 能够为非遗领域、数字人文等方面的科学研究提供开放数据服务, 有助于非遗知识的挖掘与发现, 以及我国非遗文化的国际传播。
2 非遗知识本体模型的设计与构建
本体被认为是共享概念模型的明确的形式化规范说明[17];在信息科学与计算机领域, 本体可以看作是一种模型, 是对客观存在对象或概念及其属性和相关关系形式化的表达。对非遗领域知识的有效组织与管理, 首先需要明确非遗知识的结构、知识的构成要素及内部关系等。然后, 在参考国际通用本体模型的基础上, 针对非遗领域的知识特征, 建立非遗领域知识本体模型。
非遗知识本体是对非遗内涵及其组成要素高度抽象概括而形成的一个形式化的概念模型。本文在本体理论与现有研究成果的基础上, 按照领域本体设计与构建的思路与步骤, 通过分析非遗项目的知识结构和构成要素, 构建了非遗知识本体模型, 旨在为非遗知识描述及知识关联提供统一规范的知识表示模型和数据模型。目前我国对非遗文化的保护与传承, 制定了“国家—省—市—县”四级非遗保护名录制度, 每个非遗项目有其组织申报的地域或单位, 并在口头文学、表演仪式、手工技艺等领域认定非遗项目的代表性传承人。因此, 有关非遗的基本知识可以看成由非遗项目、传承人、相关机构、项目类型、地理位置等要素构成, 组成要素之间存在着传承关系、地域分布关系、类属关系等语义关系。
在分析非遗知识基本结构与关系的基础上, 本文设计构建的非遗知识本体模型如图1所示。该本体模型参考借鉴了CIDOC CRM1、FOAF2、GeoNames3、人物关系词表 (Relationship) 4等本体模型以及都柏林核心 (Dublin Core, DC) 元数据标准。根据非遗领域知识构成的核心要素, 将非遗领域知识本体抽象出非遗项目 (ICHproject) 、代表性传承人 (Person) 、地理位置 (Place) 、项目类型 (Category) 四大核心类;每个核心类定义相应的数据属性 (Data properties) , 实体之间的关系通过对象属性 (Object Properties) 进行描述与揭示。非遗知识本体模型提供对非遗领域知识概念及其关系的宏观理解, 规范统一非遗领域的基本术语及关系, 并准确描述知识概念之间的内在关联。
图1非遗知识本体模型
注:前缀ich表示本文构建的非遗知识本体的命名空间, 定义为http://localhost:8890/ontology/
2.1 非遗项目类
非遗项目类 (ICHProject) 是对非遗项目的抽象, 其实例指我国建立的“国家—省—市—县”四级非遗保护名录中的每一个具体的项目。非遗项目实例是一个复合型对象, 既具有本身的内涵属性, 还包括与之相关的传承人、地域等实体。非遗项目实体的属性主要包括项目简介、基本内容、历史渊源、存续状态、保护与传承情况等关于项目内容的描述信息, 根据我国《国家级非遗代表作申报书》中设置的主要栏目, 从中选取非遗专指概念;此外, 除了以上基本属性外, 不同种类的非遗项目又有其独有的特征;比如, 民间音乐类非遗项目使用的乐器、独特的唱腔等, 民间舞蹈中的服装, 传统手工技艺类包含的制作技术、方法或过程、工具材料、相关制品及应用等。非遗项目类的具体属性如图2所示。
图2 非遗项目类及其属性
2.2 项目类型类
项目类型类 (Category) 用于对非遗项目分类体系的构建;为使非遗分类体系具有国际通用性, 将其细分为联合国分类 (UNCategory) 与我国“十分法” (CNCategory) 两个子类。依据我国《国家级非物质文化遗产名录》将非遗分为民俗、民间文学、传统音乐、曲艺、传统舞蹈等十大类;联合国教科文组织在《保护非物质文化遗产公约》中将非遗分为口头传说和表述、表演艺术、社会实践、礼仪和节庆活动、有关自然界的知识和实践、传统手工艺技能五种形式[18]。通过使用表示概念上下级关系的对象属性 (skos:broader、skos:narrower等) , 可以构建一个多视角、多层次、可伸缩的非遗项目分类体系。
2.3 代表性传承人类
非遗作为活态的遗产, 需要人的传承才能延续与发展。非遗代表性传承人是非遗文化的重要组成部分, 传承人掌握着杰出的技艺、技能, 对群体、族群具有影响力, 代表着非遗蕴含的深厚文化传统;传承人在培养传人、技艺传授等方面起到关键作用。本文定义的本体模型中主体类 (Agent) 的定义复用FOAF本体模型, 将主体类可以分为“传承人个体”与“组织与机构”两个子类;“个体”主要指认证的国家级、省市级代表性传承人个人, “组织与机构”则表示某些非遗项目的申报单位, 比如, 农历二十四节气的申报单位为中国农业博物馆。对于非遗项目代表性传承人对象, 其属性包括传承人编号、姓名、性别、称谓、民族、出生日期、籍贯等基本信息, 以及其掌握的技能、技艺传承的情况等。本体模型中代表性传承人类的具体属性如图3所示。此外, 复用人物关系词汇表 (Relationship) 中的属性, 来更好地表达传承人之间错综复杂的传承关系和传承谱系。
2.4 地理位置类
非遗具有鲜明的地域特色, 不同地域的风俗习惯、语言、文化和历史孕育了不同特色的非遗内容。本体模型中定义地理位置类, 一方面为表达非遗项目分布与流传的地理空间, 另一方面记录传承人的居住地与籍贯等信息。并为地理位置类赋予其省、市、县、村镇行政级别的数据属性, 与我国的行政区划相对应。同时, 将每个地理位置实例与地理数据库GeoNames进行实体的关联, 获取地理位置简介、经纬度等信息。结合地理信息系统 (GIS) 技术, 不仅通过地图空间分布的直观可视化形式表达非遗的空间分布, 还可以从深层次挖掘出非遗中空间维度的隐含信息, 通过空间聚类、核密度分析等GIS空间分析技术, 对非遗的空间结构与演变及特征进行分析, 对理解非遗文化的内涵具有重要意义。
图3 代表性传承人类及其属性
2.5 实体之间的关联关系
通过对非遗知识结构的分析, 抽象出本体模型的核心类之外, 还需要定义知识要素间丰富的关系。通过对非遗领域实体之间的关系进行梳理, 可以概括出非遗项目与传承人间的代表关系、项目与地域的位置关系、传承人间的传承关系、项目类别之间的层级关系等, 这些关系对了解和认识非遗文化的活态流变性非常重要。在本体模型中通过定义对象属性, 对实体间关系进行描述与表示, 最终, 在对非遗领域知识结构分析的基础上, 定义对象属性及其定义域与值域, 如表1所示。实体间的关联关系将独立的知识要素联系起来, 形成非遗知识网络, 改变传统知识组织的单线索模式。此外, 在这些关联关系的基础上, 通过定义规则与关系推理, 能够推断并发现隐形的知识。
围绕非遗项目相关知识的组织与管理, 本文在参考借鉴CIDOC CRM、FOAF、Relationship等国际通用本体模型的基础上, 根据非遗知识的特点进行本体的复用和自定义扩展。最终, 设计构建的非遗知识本体模型包含8个核心类和25个对象属性、非遗项目和传承人类的27个数据属性, 以及本体推理规则等, 为非遗领域知识的组织与形式化表示提供了较为全面的、规范统一的模型, 满足了对非遗领域知识结构的形式化描述与表示。使用本体编辑软件protégé进行非遗知识本体模型的开发与实现, 本体模型的结构如图4所示。非遗知识本体模型面向非遗知识的组织与管理, 提供对非遗领域知识的形式化表示, 满足了对非遗项目申报与认证过程中的知识管理需求。对湖北省非遗知识组织与管理的实践, 验证了本文构建的非遗知识本体模型的合理性和有效性。
表1 非遗知识本体的对象属性
非遗知识本体模型构建的主要作用是对非遗知识的描述和形式化表达进行规范, 而数据的语义转化、知识的结构化表示与存储则需要借助关联数据相关技术进行实现。
图4 非遗知识本体模型的可视化
3 非遗知识关联数据集的构建与发布
关联数据技术使用统一资源标识符 (URI) 对资源实体进行命名描述, 采用RDF作为其数据模型, 链接、发布、共享各类信息、数据和知识, 从而构成数据的关联网络;采用关联数据技术对信息与知识进行组织, 使得人与机器都能够获取与理解这些语义关联化与结构化的数据。关联数据灵活的内外部链接机制, 能够将跨领域、跨类型的知识对象连接成一个整体的知识网络[11]。
非遗知识关联数据集的构建是一个庞大而系统的工程。首先, 明确研究范围, 梳理非遗领域的知识对象;其次, 对领域实体进行抽取, 明确实体的各类属性, 构建领域本体模型, 形成叙词表和术语表;再次, 按照本体模型对实体进行RDF化属性描述, 建立实体链接, 包括领域内部实体之间以及与外部开放数据间的实体链接;最后, 选择合适的数据存储与发布平台, 为人机提供访问和数据接口。遵循关联数据的基本原则, 非遗领域知识关联数据库的构建可以分为五个关键步骤, 即数据建模、实体命名、实体RDF化、实体关联、实体发布[19]。其中, 数据建模过程即非遗领域知识本体模型的构建过程。本文以湖北省非遗项目为例, 探索非遗知识关联数据集的构建步骤和具体实现的方法。非遗知识关联数据集构建的技术框架如图5所示。
3.1 非遗项目数据的获取与处理
由于我国非遗项目数量相当庞大, 而且非遗项目和传承人的认定是动态变化的, 导致整个非遗领域知识库的建设过程需要分层次、分批进行。本文以湖北省非遗项目为例, 收集整理湖北省非遗项目和代表性传承人的基本信息, 在此基础上构建湖北省非遗知识关联数据集。数据来源主要有两个途径, 一是非遗项目申报与代表性传承人认证申请的数据, 二是通过网络爬虫、实体抽取等技术, 从我国非物质文化遗产网、湖北非物质文化遗产网等网站上收集的互联网数据, 最后对收集的数据进行数据清洗等预处理, 并存储在数据库中。共收集整理了湖北省国家级、省级和地市级非遗项目370项, 代表性传承人310位, 包括湖北省行政区划与非遗项目类型等数据。为准确研究非遗的地域分布, 将不同地区的同一非遗项目进行拆分。
图5 非遗知识关联数据集构建的技术框架
3.2 实体RDF化
RDF (Resource Description Framework) 即资源描述框架, 是关联数据使用的数据模型, 其采用三元组的结构化形式对资源进行描述。RDF使用“实体、属性、属性值”三元组陈述来描述事物。实体RDF化即是对每个对象及其属性利用RDF语义描述语言进行规范化和结构化描述。在标准词表和领域本体的前提下, 进行词汇的RDF映射与实体对象的RDF描述;实体RDF化可以分为手动描述和自动转化, 自动转化是将结构化或半结构化数据依据本体模型进行数据映射, 转换成RDF数据。
由于众多传统的非遗信息系统主要用关系型数据库进行数据存储, 本文选择基于D2RQ进行数据语义映射, 将关系型数据库中的内容转换成关联数据。D2RQ平台是目前关联数据构建过程中广泛使用的工具, 其以虚拟RDF图的方式访问关系型数据库, 支持主流的关系型数据库, 并提供SPARQL查询接口及Web化的执行界面5。D2RQ平台的核心功能模块包括D2R Server、D2R Engine与D2R Mapping, 其中, Mapping映射语言定义数据映射的规则, 规范关系型数据库结构与本体模型的关系。数据的语义映射即是将二维表结构转换成更善于处理复杂关系、更富有语义信息的关联数据;具体包括数据表向类映射、数据表中的列向属性映射、关系表向关联关系映射。在映射语言中, 使用d2rq:ClassMap定义本体模型的类, 对应数据表的映射, 使用d2rq:PropertyBridge定义本体模型中的属性, 对应数据表中的列及关系表的映射。
对关系型数据库中的数据向RDF的映射, 要遵循本体模型中定义的类与属性。如图6所示, 将关系型数据库中五个主要数据表映射为非遗项目、传承人、分类与地理位置四个核心类及其属性, 其中, 关系表映射为“hasInheritor”对象属性;每个数据表的字段映射为相应的属性。表2对应映射框架, 是将项目表、传承人、传承关系表进行语义映射的核心语句。
图6 类及属性的映射框架
表2 数据语义映射的语句 (部分)
续表
最后, 根据数据映射文件, 使用D2RQ平台的dump-rdf工具将关系型数据库中的数据转换生成RDF/XML格式文件, 供其他数据库或第三方应用程序使用。虽然D2RQ也可以对关联数据进行发布, 但其对数据的更新与管理不够灵活, 对复杂关系和海量数据的支持有限。因此本文使用D2RQ对数据进行语义转换, 将其转换为RDF/XML格式文件。然后将数据存储在专门的Triplestore数据库中, 并配置服务器实现数据的关联发布和数据开放接口。
3.3 实体关联
实体关联是在实体RDF化描述的基础上, 采用RDF链接描述不同实体对象间的语义关系, 同时尽可能地与外部数据建立关联, 从而构建关联数据网络[20]。将数据关联到其他开放RDF数据集与词汇表是丰富关联数据语义的关键步骤[21]。实体链接应更多地将内部数据与外部开放数据集进行语义链接, 通过跨领域、跨学科、跨数据库的知识聚合, 实现知识的发现。
在语义网环境下, 借助关联数据的规范性和开放互联性等突出特点, 并整合多个知识库, 能够提高非遗领域知识的丰富程度和广度, 为非遗文化的科学研究与知识传播提供数据基础和知识服务。为丰富非遗领域知识, 本文选择与DBpedia以及GeoNames关联数据项目进行数据匹配与关联。通过与DBpedia及其数据来源维基百科的关联, 获得与非遗项目对应的中英文词条;通过与全球地理数据库 (GeoNames) 的关联, 获取有关非遗领域涉及地域的更多信息。使用OWL内置属性owl:sameAs将内部知识实体与外部数据集中的实体进行关联, 表示链接的两个实体对象为同一个事物。与DBpedia和GeoNames数据集的语义关联如图7所示。
图7 非遗领域知识关联数据与外部数据集关联示意
(1) 非遗项目实体与DBpedia关联
DBpedia项目是抽取维基百科的数据而建立的以关联数据为标准的大型知识型数据集, 是关联开放数据云图中的核心中枢。DBpedia数据集中包含大量的用中英文描述的有关我国非遗文化的信息, 与之进行实体关联能够丰富非遗领域知识, 提高非遗知识的可见度和通用性。本文采用自动检索与人工检查相结合的方式, 首先通过SPARQL语言在线检索DBpedia中与非遗项目相关的资源条目, 然后对检索的结果通过人工检查的方式进行筛选和核对[22], 最后将检索到的资源的URI通过owl:sameAs属性与内部非遗项目实体进行关联。
在DBpedia本体模型中, db:abstract属性表示该资源的摘要, foaf:isPrimaryTopicOf属性链接与该资源对应的维基百科页面。在线调用DBpedia的SPARQL Endpoint站点, 将非遗项目的相关概念通过构建SPARQL语句, 检索包含该关键词的资源条目。如表3所示, 以“黑暗传”为关键词对DBpedia的中文标签进行全文检索, 同时获取该资源的摘要信息及对应的维基百科页面;然后经过人工判断确定检索结果是否为相同的资源实体, 并将其与内部数据集中的非遗项目实体进行链接。
表3 非遗项目类实体与DBpedia匹配
由于DBpedia存在不完善的地方, 如有些非遗项目缺少词条, DBpedia提供的中文信息不全, 维基百科中有关非遗的资源条目DBpedia没有收录, 还因为非遗项目的称谓不统一, 通过以上方式只能正确匹配部分实体, 有些还无法完全匹配。因此, 本文在自动检索的基础上, 结合人工检查的方式, 尽可能多地将内部非遗项目实体与DBpedia相关资源进行关联。最终, 大概1/3的非遗项目与DBpedia或维基百科进行了实体关联, 也从侧面凸显了建立我国非遗百科型数据库的必要性。
(2) 地理位置实体与GeoNames关联
GeoNames6地理数据库包含全世界1千万余条地理名称, 并提供地理名称替代名、经纬度、人口数量及维基百科等信息。其采用关联数据的原则进行组织, 为每条地理名称定义唯一的资源URI, 将地理空间语义信息发布到互联网上。为了获取更多有关地理位置的信息, 丰富领域知识, 同时为基于地理信息对非遗文化的空间分析提供数据基础, 本文将非遗项目申报地区、传承人居住地等涉及地理位置的实体与GeoNames数据库进行关联。
GeoNames数据的获取可以调用其官方API, 或者借助第三方提供的SPARQL端点进行获取;为保证与DBpedia数据关联方式的一致, 本文使用Factforge7网站的SPARQL端点获取GeoNames数据, 其核心SPARQL查询语句如表4所示。该查询语句检索“恩施州”在GeoNames数据库中对应的资源条目, 并限定检索的范围为中国 (编码为CN) 、资源类型为国家与地区 (编码为A) 。检索结果将返回该地理位置对象的URI, <http://sws.geonames.org/1811624/>, 并可以进一步获取该地理位置的经纬度以及维基百科链接等信息。对于地理名称相同的情况, 可以通过判断市级与省级地理名称 (parentADM2、parentADM1) 来消歧。通过上述方式, 对地理位置实体的关联达到了100%的匹配。
表4 地理位置类实体与GeoNames匹配
最后, 在构建内部非遗领域知识关联数据的基础上, 将非遗项目、人物、地理位置等多个类别的实体与DBpedia和GeoNames等外部数据库进行关联。最终构建的非遗领域知识关联数据库中实体与三元组数量如图8所示, 其中共有9600余个三元组, 涉及非遗项目、传承人、机构、地理、类型等多个类别的对象, 与DBpedia关联的实体有306个, 与GeoNames关联的实体有124个。通过链接DBpedia可以更方便地与维基百科、WIKIDATA、YAGO等资源进行关联。而且, 构建的非遗知识关联数据以W3C标准完全开放, 可以通过在线检索、SPARQL Endpoint等多种数据调用方式获取数据服务。
图8 非遗领域知识关联数据的统计
3.4 非遗知识关联数据的存储与发布
将非遗领域各类数据与知识转换成关联数据的形式之后, 需要对其进行持久化存储与发布, 关联数据的存储与发布直接影响数据的共享与重用。关联数据存储与发布有多种途径, 本文采用原生方式进行存储, 配置关联数据发布的服务器, 提供开放数据服务和知识服务;使用OpenLink Virtuoso作为RDF数据的存储与管理数据库, 并利用LodView为用户提供非遗知识库的数据浏览, 利用LodLive提供非遗知识关联图谱的可视化表示。
(1) 关联数据的存储
关联数据的存储方案大致分为基于关系型数据的存储、使用NOSQL数据库存储以及Triplestore数据库存储等[23]。其中, Triplestore数据库是专门针对RDF数据结构的特点开发的, 具有高效的数据存储、查询及推理机制;同时因其采用统一的数据模型, 可以实现数据间高效的交互。考虑到未来非遗领域知识的扩展和数据的增长, 本文选择应用较为广泛的OpenLink Virtuoso1作为数据库管理软件。Virtuoso数据库是跨平台可伸缩的高性能数据库管理软件, 提供SQL、XML、RDF数据库管理功能, 支持数十亿规模三元组的存储和管理[24]。Virtuoso数据库为数据导入提供WEB页面或ISQL命令等多重机制。将非遗相关的原始数据经过语义描述或语义映射生成RDF格式数据, 然后导入到Virtuoso数据存储中, 并指定数据所属的命名图的IRI (Internationalized Resource Identifiers) 。
(2) 关联数据的发布
通过上文构建的非遗领域知识RDF数据需要经过关联数据发布, 才能够实现数据的利用与共享;关联数据常用的发布方式有基于静态RDF/XML文件、基于关系型数据、基于RDF数据存储库、使用RDFa方式等多种途径[25]。本文在Virtuoso数据库平台的基础上, 遵循W3C的关联数据发布的四原则, 配置关联数据发布的服务器, 提供RDF数据管理、关联数据浏览、SPARQL端点、内容协商等服务。
为了完整、全面地展示非遗关联数据集中每个实体的属性及其关系, 使用LodView工具为用户提供非遗关联数据的浏览。LodView2是基于Jena与Spring框架开发的WEB应用程序, 支持符合W3C标准的国际化资源标识符 (IRI) 的解析, 将RDF数据格式转化到HTML的工具;配置LodView的SPARQL站点及多媒体展示及经纬度等属性, 根据内容协商机制返回正确的RDF数据和网页描述。非遗知识关联数据集的实体, 按照实体的类型进行区分, 包括非遗项目、传承人、地名、项目类型等。实体命名的URI格式为http://[baseURI]/[entityTypeName]/[entityID], 其中, [entityTypeName]与本体模型中的类对应;如http://localhost:8890/resource/ichproject/359表示“非遗项目类”的实例“黑暗传”;使用LodView工具展示该实例详细信息的页面如图9所示。
图9展示了非遗项目“黑暗传”实例的所有属性。页面上部为多媒体展示部分, 直观显示与其相关的图片、视频等多媒体资源, 页面中罗列出该项目的代表性传承人、所属类型、分布地区等关联对象。比如, 通过ich:hasInheritor属性链接该项目的代表性传承人, 点击超链接跳转至图10所示传承人对象的详细页面。当用户访问时, 提供直观的HTML页面;应用程序访问时, 根据不同的内容请求, 返回RDF/XML、RDF/Turtle、JSON等相应格式的数据。
在非遗知识关联数据集中, 地理位置类对象与GeoNames进行了关联。图11是地理位置类“神农架林区”实例的信息页面, 使用在线地图的形式, 根据经纬度信息显示地图中的位置。页面中部显示地理位置类的具体属性, 并与DBpedia、GeoNames及Wikipedia进行关联;页面底部通过ich:hasPlace属性的逆反性, 反向检索出该地区拥有的非遗项目和传承人对象。
3.5 非遗知识关联数据的可视化
非遗知识关联数据集的独特性是以事物间的关系为核心, 而事物间复杂的关系最适合使用图形化的方式表示。非遗知识关联关系的可视化通过LodLive1系统实现, LodLive以可视化知识图谱的方式对非遗知识库的数据提供直观的数据浏览服务。LodLive仅仅基于SPARQL端点就可以实现对RDF资源进行导航;通过配置SPARQL Endpoint站点, LodLive可自动查询与该实例相关的三元组信息, 并与DBpedia、GeoNames等外部数据集进行关联查询。
图9 非遗项目对象页面
图10 传承人对象页面
图11 地理位置对象页面
在知识关联图谱中, 节点表示对象实例, 链接两个节点的箭头则表示二者间的关系。每两个实例对象之间, 都直接或间接地存在某种联系, 以任意一个知识对象为起点, 都可以发现其他与之相关的对象及他们之间的相互关系, 以递进的方式展示知识的关联性。这种细粒度的知识组织和互联方式使数据的集成与利用变得更加容易。
图12是以非遗项目“黑暗传”为中心的知识关联图谱。其中, 右侧描述了该项目的基本信息, 中间区域是领域内部知识关联数据集, 包括项目传承人、项目类型、分布地区等具体实例, 与之链接的节点可以继续展开。左侧区域为关联的外部DBpedia、GeoNames等数据集, 通过自建的关联数据集与外部不同数据源的实体关联, 可以获得更多相关的知识信息。通过关联关系的图谱化呈现, 能够发现更多隐含的有价值的非遗知识。
除了将非遗知识以关联图谱的形式进行可视化之外, 还可以借助地理信息系统 (GIS) 以在线地图的形式展示非遗知识中的地理特征。通过与GeoNames数据库关联以及利用地理编码技术获取非遗项目或传承人实体的经纬度信息, 在基础地图服务的基础上实现非遗知识地图可视化。图13是非遗地图可视化界面, 页面左侧按照行政区划与项目类型提供分类导航;此外, 提供地图查询功能, 查询结果将在地图中标记出来, 点击地图上的兴趣点可以查看详细信息。以地理空间为主线, 以非遗领域知识为对象, 将领域知识围绕地理特征进行汇聚与组织, 从而实现非遗知识服务的智慧化系统。
图12 非遗项目“黑暗传”的关联图谱
本文构建的非遗知识库以关联开放数据集的形式进行开放, 通过互联网提供非遗领域数据的消费接口;在领域专家和非遗保护机构的支持下, 非遗领域知识将会得到进一步的补充和更新。通过标准化的知识组织, 向社会提供数据的共享与重用, 促进非遗领域知识的规范控制、数据共建与共享以及知识的创新性应用。基于关联数据技术的非遗知识管理的研究, 为大数据和数字人文背景下非遗领域知识的深度组织与开发提供了思路, 对我国非遗知识的管理具有一定的参考价值。
图13 非遗知识的地图浏览与地图查询
4 结论与展望
语义网及关联数据的发展, 为非遗领域知识的组织与共享提供了新的思路与方法, 改变了非遗知识的表示与表达方式。为实现对非遗知识的有效组织与管理, 本文在对非遗领域知识进行加工与整理的基础上, 梳理出非遗知识要素与语义关系, 构建了非遗知识本体模型, 以揭示非遗领域丰富的知识以及知识间的内在联系。基于关联数据技术构建的非遗知识关联数据集, 以关联开放数据的形式提供数据的消费与共享, 并基于关联数据集提供领域知识的关联展示、知识可视化等知识服务。
本体与关联数据的思想与技术在非遗领域知识组织方面具有巨大的优势, 利用关联数据技术构建我国非遗领域知识库, 并与国际上的开放数据集进行实体链接, 能够提高非遗领域知识的关联性、共享与开放性、影响力。高质量的非遗知识开放数据集与知识服务平台的构建, 一方面为更深层次非遗文化的分析与研究提供了科学的数据集, 另一方面促使非遗知识发挥出更大的价值, 对非遗文化的传播与传承具有重要的意义。
非遗蕴含着丰富的知识, 本文仅仅研究梳理了非遗项目、传承人、地域、传承关系等基本知识要素, 知识组织的颗粒度还有待进一步细化。非遗知识本体模型仍需要根据实际需求进行进一步的扩展与丰富。后续研究将扩大数据来源与研究对象, 在大数据环境下, 研究非遗海量异构知识的组织与管理, 并在此基础上分析非遗项目的时空演变与历史发展历程, 以及非遗文化的存续状态, 深入挖掘非遗领域的知识内涵。