科学研究

非物质文化遗产视频语义标注方法研究

作者：侯西龙,谈国新,庄文杰,唐铭来源：情报科学,2018,36(11) 发布时间： [2018-11-05] 点击数：

摘要：

【目的/意义】针对非物质文化遗产 (简称“非遗”) 视频资源难以入库与管理的难题, 提出了一种非遗视频资源的管理和语义组织的语义标注方法。【方法/过程】首先对非遗视频采用基于SURF算法和窗口阈值的镜头分割方法, 将非遗视频解构成不同颗粒度的逻辑单元;其次构建了非遗视频语义标注的本体模型;最后通过视频语义标注过程, 实现领域知识概念与视频资源间的语义关联, 赋予视频单元丰富的语义信息。【结果/结论】非遗视频综合语义标注方法可对非遗视频资源实现有效管理, 为用户提供结构化、语义化的视频浏览及知识可视化等知识服务, 对非遗数字化保护与传播具有重要的意义和价值。

关键词：

非物质文化遗产; 语义标注; 本体; 视频资源;

视频既是一种重要的信息存储方式, 也是一种直观的传递信息、表达知识的视觉媒介, 能够表达文本和图像难以表达的复杂信息。随着非物质文化遗产 (以下简称非遗) 数字化的发展, 非遗视频的资源量与日俱增, 非遗视频资源管理与利用的需求更加突出。近年来, 随着语义技术在非遗领域的利用, 使得计算机对大规模非结构化的视频的理解和获取面临着巨大挑战, 如何揭示和描述非遗视频中包含的丰富的语义知识, 是解决海量视频资源管理和非遗知识传播的关键。对非遗视频进行结构化、语义化组织与利用成为当前非遗数字化保护的重点研究内容。

非遗视频的语义描述与标注是非遗信息资源管理与开发应用的基础, 通过领域本体和语义技术, 构建非遗视频的语义标注方法与框架, 实现视频资源向知识语义层面的转化势在必行。通过对视频资源的语义标注和描述, 将存在语义异构的文化资源整合成一个整体, 形成人机能够理解的语义资源体系, 促进系统之间的信息交换与共享。在知识层面, 经过对非遗视频的解构和语义标注的过程, 使其作为知识的载体, 直观、生动与真实地展示非遗知识概念, 更符合信息化时代知识的传播与共享, 为非遗数字化保护、非遗知识发现、知识服务等提供基础。

本文在综合考虑非遗视频特征的基础上, 对非遗视频的结构进行分析, 并利用基于SURF算法的镜头分割、关键帧提取等技术对非遗视频进行解构。然后, 构建了非遗视频语义标注的本体模型, 为视频语义标注提供领域知识概念。最后, 提出了非遗视频综合语义标注的方法, 对非遗视频资源进行语义表示, 实现非遗知识概念与视频之间的语义关联。开展非遗视频单元语义标注的实践, 开发实现了非遗视频标注工具, 验证了该方法的可行性和适用性。

1 相关研究

1.1视频语义标注方法研究

视频语义标注是将视频内容表示为语义概念, 使其具有语义信息, 方便人与机器的理解。近年来, 国内外语义标注研究都非常重视, 在图像语义标注技术相对成熟的情况下, 国内外学者对视频语义标注作了大量的研究。视频语义标注方法向基于机器学习和本体的语义标注方向发展, 利用本体技术和自然语言处理技术完成对视频的自动标注, 缩小计算机与人们理解“语义鸿沟”【1】。在视频标注本体模型方面, 已经形成了丰富的本体模型, 能够为图片、视音频等多媒体资源创作高质量和语义丰富的标注, 但现有的模型还不能够完全适用于非遗领域视频资源的标注。

视频语义标注的方法大致可以分为基于文本、基于规则、基于机器学习和基于本体的语义标注方法等【2】。基于文本的语义标注是对与视频相关的文本描述、关键词、视频字幕、剧本等文本信息进行自然语言处理, 进而对视频文件进行标注;基于机器学习的方法是目前研究较多的方法, 包括聚类、SVM、贝叶斯神经网络等方法;通过提取视频底层的视觉特征信息, 进而对视频进行分类识别, 监督或半监督学习方式完成与高层语义概念之间对应, 进一步缩短“语义鸿沟”。基于本体的方法是随着语义本体技术的发展, 将其应用在对视频高层语义标注方面;本体可以提供领域内基本概念及其关系的宏观理解, 具有强大的推理功能和表示丰富的语义关系的能力。本体方法在视频标注方面的应用能充分、全面的标注视频潜在的语义特征, 提高视频内容标注的有效性和检索的准确性。

在视频资源语义标注本体模型研究方面, 国内外学者和研究机构在相关元数据标准的基础上, 根据不同领域多媒体资源的特点, 提出了不同的多媒体本体模型;目的是通过建立一个通用的可以实现元数据之间互相映射、语义互操作的框架, 实现对互联网上多媒体资源检索和共享。其中, Ontology for Media Resources1.0模型是W3C组织为解决不同的多媒体元数据格式之间互操作问题而制定的【3】, 可以通过其制定的数据接口获取不同格式的元数据以及相关的多媒体资源。该模型分成媒体特征类和非媒体类两大类, 包括14个核心类、56个对象属性;LSCOM【4】是为新闻广播视频的标注和检索定义的核心本体, 现包含2500个标注词汇, 涵盖了对象、活动、事件、场景、位置以及程序、图形等方面的词汇;该项目已经为视频检索国际权威评估 (TRECVID) 提供视频特征测试数据集合和语义标注概念数据集。VidOnt【5】本体模型主要是为视频制作和电影产品等制定的标注模型, 提供机器可读的结构化数据。此外, 应用较为广泛的视频本体模型还有BBC Ontology、COMM、M3O、VMO等【6】, 并在这些多媒体本体模型的基础上开展了相关的应用项目。Khan等【7】在对视频标注工具和本体模型综述的基础上, 总结发现现有的本体模型对视频中主题、场景、事件、实体的标注还有较大的提升空间, 同时在数据分享、检索等方面存在局限。这些模型大都是通用的模型, 在针对具体领域时, 仍需要建立该领域的知识概念, 以及适用于该领域的类和属性。现有的视频语义标注模型在各自领域和应用中具有各自的优势和特点;但直接应用在非遗领域视频资源的语义标注上存在明显的局限与不足, 主要是非遗蕴含着复杂的文化内涵和丰富的符号形象, 非遗领域内没有形成成熟的知识体系, 缺少通用的本体模型, 难以表达非遗的高层次的语义;另一局限是, 现有的非遗视频的标注多是对整个视频的简单的概念与关键词的标注, 没有对非遗视频内容进行深入的解构。因此, 有必要设计非遗视频资源的语义标注方法和框架, 来揭示视频资源间的关系和非遗隐含的文化内涵【8】。

1.2非遗视频深度语义标注的需求

对非遗视频深度语义标注是对视频资源进行组织、借助多媒体直观的形式揭示非遗文化内涵、为建设非遗关联开放数据提供知识服务的前提和基础。但目前的非遗视频资源库多是非结构或半结构化的存储, 缺少完善、系统的分类体系和语义关系, 对非遗视频丰富的背景信息表达不足, 非遗视频的直观性和真实性的特点无法得到充分的体现。非遗视频语义标注应在非遗视频结构分析的基础上, 将非遗视频解构成逻辑单元明确的视频片段, 并对视频片段表达的主体、对象、事件、概念以及时间地点等信息进行深度的语义标注。通过非遗知识信息与视频的内容片段及其语义进行精准的对应, 将视频内容表达成语义信息, 将文字型信息结构与视频自身表达的叙事内涵结构相对应。结合非遗领域的本体模型和概念体系, 形成知识概念与多媒体资源之间的语义网络。

探索非遗视频的语义标注有利于深入到知识单元揭示非遗的知识关联, 将语义知识组织思想与技术应用于非遗的保护传承中, 形成对海量的非遗数字化资源的挖掘利用。因此, 无论是从宏观层面对非遗的保护与传承, 还是在微观层面满足用户多元化的信息需求, 都应该构建非遗多媒体资源的语义化组织体系。

2 非遗视频综合语义标注方法

随着非遗数字化技术的提高和视频资源量的快速增长, 视频资源的组织、存储、检索与利用显得愈发重要。对非遗视频进行语义标注是实现非遗数字资源有效组织、非遗知识高效传播的重要过程。本文在非遗视频结构分析方法和本体模型思路的基础上, 针对非遗视频资源提出了非遗视频综合语义标注方法, 为非遗视频资源的管理、知识的组织与传播提供一种策略方法。如图1所示, 非遗视频综合语义标注方法主要包括非遗视频结构分析、领域知识语义分析、视频单元语义标注与数据应用等部分。

非遗视频的结构分析主要是根据非遗的特点及视频的规律, 利用镜头变换检测、关键帧提取、图像处理等技术对视频进行逻辑单元的分割。将非结构化的视频资源分解成半结构化的视频片段、场景、镜头及关键帧等具有完整意义的逻辑单元。非遗领域知识语义分析是对非遗项目进行语义分析, 提取领域概念、实体与关联关系构建领域本体模型, 为视频内容的语义标注提供系统的语义概念集。最后, 在非遗视频语义标注本体模型的结构下, 对非遗视频片段、场景、镜头及关键帧等逻辑单元进行标识, 将视频资源与语义概念进行映射, 建立非遗视频对象的属性以及对象之间的关系。在语义标注后形成的关联数据的基础上, 用户不仅可以结构化、语义化地浏览非遗视频, 还可以为用户提供视频对象语义检索、关联开放数据 (Linked Open Data, LOD) 等知识服务。

图1 非遗视频综合语义标注方法框架图

2.1非遗视频的结构分析

对非遗视频进行结构分析是实现对非遗视频深度语义标注、结构化组织和浏览的前提。本文将非遗视频结构分为四个层次, 利用基于SURF算法的镜头分割和关键帧提取技术, 将视频分割为不同颗粒度的逻辑单元, 通过语义标注过程最终形成具有完整意义的语义逻辑单元。

2.1.1非遗视频组成结构

非遗视频包括非遗数字化过程中拍摄的原始视频以及用于非遗文化传播与传承教学而剪辑后的成片;非遗视频的拍摄内容主要针对具体的非遗项目, 完整记录活动或事件的流程, 或者是针对传承人做的访谈或专题视频, 一般具有纪录片的风格和样式。这类视频通常围绕某个主题由不同的场景组成, 每个场景是通过不同景别与角度、长短不一的若干相关镜头剪辑组成, 通常体现视频较高层次的语义内容【9】;组成场景的镜头, 又可以分解成连续的图像帧。将拥有较多信息量、反映该镜头主要内容的图像帧又被称为关键帧。非遗视频的组成结构如图2所示, 非遗视频被分割为视频片段、场景、镜头、关键帧四个层次, 视频单元颗粒度逐层细化。按照下文构建的非遗视频语义标注本体模型, 将视频场景大致分为人物、事件、实物、时间与空间以及情境等类别, 但由于非遗领域的复杂性以及视频信息的承载量大, 视频场景表达的主题之间有重叠与交叉;一段视频场景有可能包含众多的主题和概念。

图2 非遗视频的结构

2.1.2非遗视频镜头分割

镜头是视频内容的基本逻辑单元, 是摄像机的一次持续拍摄, 由一系列连续的图像帧组成。视频镜头的分割实际上是对连续图像帧的检测, 确定镜头的边界。为准确的标注视频, 需要将视频分割成镜头的集合, 快速准确的检测出镜头的变化边界对视频语义表达具有重要意义。

镜头边界检测的方法较多, 一般是通过提取视觉特征、构建连续或间断信号或者根据视频内容差异变化判断镜头变换等思想为出发点【10】。镜头边界检测方法可以大致分为基于底层视觉特征、基于中间层视觉以及基于视频序列信息等方法;目前研究更多的是提取视频多种特征融合的检测方法, 通过设置不同特征的权重, 提高检测的精确度和检测效率。

本文采用的非遗视频镜头分割方法基于图像的局部视觉特征, 核心算法采用SURF特征点匹配算法 (图3) 。SURF (Speed Up Robust Features) 是Herbert Bay等人对David Lowe在1999年提出的SIFT算法的改进, 不仅具有SIFT算法的稳定性能, 算法速度比较快、实时性较强【11】;算法基本流程包括局部特征点提取、特征点的描述和特征点的匹配等。由于视频的数据量巨大, 为减少计算量, 间隔提取图像帧, 并对其进行压缩并转化成灰度图像。然后, 对前后两张图像利用SURF算法进行特征点匹配, 记录其特征点匹配数量。

图3 SURF特征点匹配算法

视频镜头的变换一般分为切变镜头和渐变镜头, 切变镜头是两个镜头之间直接切换, 视觉变化明显。渐变镜头有淡入淡出、溶解、叠加等效果, 相邻镜头之间是平滑过渡的, 视觉变化不明显;如图4所示, 渐变镜头在特征点匹配变化曲线上表现为一个缓慢变化的波谷。

图4 镜头变换检测的示意图

无论是切变镜头还是渐变镜头均出现在波谷处, 而且其值相对左右两侧一定范围的值而言属于突变点。本文利用窗口阈值判断的方法找出镜头变换的位置, 首先判断出每个波谷的边界, 计算波谷边界左右两侧设定窗口范围内的均值。然后比较波谷的值是否小于左右窗口均值一定倍数的标准差, 对小于阈值的点根据视频的特性对其进行二次判断最终确定镜头变换位置。待检测值与左右窗口内阈值的判断公式:

D (n) 表示当前帧与前一帧之间特征点匹配数量, μleft 表示左则窗口内数据的均值, μright 表示右则窗口的均值, σleft 表示左则窗口内数据的标准差, σright 表示右则窗口的标准差, T表示倍数。通过对非遗视频的反复实验后, 选择窗口的宽度为N=15。初步计算出镜头的变换位置后, 对数值较大的点再次进行判断。通过该方法的镜头分割与人工分割进行判断, 该方法执行速度较快, 精确度较高, 能够分割出绝大部分的镜头。

2.1.3镜头关键帧提取

视频分割成镜头后仍包含许多图像帧, 对镜头内容进行分析时, 有效的关键帧可以代表镜头的有效信息, 大幅度降低视频的计算量与复杂度。关键帧可以使用户在镜头标注时一目了然的了解视频的内容, 还可以作为视频摘要和数据库索引。关键帧的选择应尽可能多的包含镜头的内容, 同时关键帧的数量要尽可能的少。关键帧提取比较典型的方法有固定位置法、聚类法、基于视觉内容方法、基于运动分析的提取方法等【12】。其中, 基于视觉内容的方法主要通过提取图像的颜色、纹理或者形状等底层特征信息来计算关键帧;聚类方法是在根据图像或视频的某些特征计算其相似度并进行聚类分组, 经过数次迭代后, 选取聚类中心的图像作为关键帧;随着图像处理技术的发展, 基于支持向量机、神经网络等高级图像处理方法也已经应用在视频关键帧的提取中。

本文采用基于SURF特征点匹配的方法对视频根据其视觉特征进行了镜头分割, 每个镜头可以看作是非常相似的图像序列;本文在对视频镜头分割的基础上, 对每个镜头利用直方图最近邻法进行关键帧的提取;即计算镜头内图像帧的平均灰度直方图, 选取灰度直方图与平均灰度直方图最接近的图像帧作为关键帧。直方图方法的计算量相对较少, 满足了对视频镜头索引建立的需求。

2.2非遗视频语义标注本体模型

本体通过对概念的严格定义和概念之间关系的确定, 表示领域内共同认可的、可共享的知识, 在语义层面使的信息可共享与交换;本体表达客观世界抽象出来的对象及其关系, 是对领域内知识结构进行建模, 使其能够被共同认可与理解。我国学者对非遗领域本体的应用进行了研究, 尤其是围绕CIDOC CRM概念参考模型的研究成果较多;针对不同的研究对象, 构建了相应的非遗本体模型。针对民俗舞蹈类非遗项目, 谈国新、孙传明等提出了基于本体的知识模型框架, 并构建民俗舞蹈文化空间知识本体模型【13】。周耀林结合传统戏剧类非遗信息资源的核心元素, 提出了包含人物、事件、地理位置、时间、剧种、剧目、舞台表演、音乐和传播等传统戏剧类非遗信息资源本体概念体系【14】。针对民俗中的传统节日, 郝挺雷按照层次结构将传统节日领域知识实体定义为民俗活动、时间、地点、行为主体、物品和概念对象等核心实体【15】。徐雷、王晓光等设计了适用于叙事型图像的图像语义标注本体模型, 以情节、实体、动态元素 (事件与动作) 及情境为核心对叙事型壁画进行了语义标注研究【8】。蔡璐等在系统论视角下提出非遗信息本体概念模型, 其包括项目、人物、机构、事件、事物和文献六个大类【16】。董坤定义的非遗元数据本体由非遗项目、人物、位置、事件、时间段、类型、事物等六个核心类组成【17】。

通过对以上的本体模型的研究发现, 大部分模型是以叙事为视角或以事件描述为中心对非遗信息进行组织, 模型类的定义和属性大都基本遵循着5W1H要素 (who、when、where、what、why、how) 【18】。但现有的非遗领域本体模型缺少对多媒体资源的深入研究, 在模型中甚至没有与之相对应的核心类的定义。本文根据非遗视频的构成要素和非遗领域知识高度抽象的基础上, 提出了非遗视频语义标注本体模型。该本体基于5W1H要素原则, 定义了相对应的人物、时空、事件、物体、主题概念、情境六个核心类。同时, 本体的多媒体资源类的定义参考W3C制定的Ontology for Media Resource本体模型【19】的基础上, 针对非遗视频的结构, 将其分为视频资源和关键帧两个子类, 视频资源又包含视频场景和镜头子类。如图5所示, 是将本体模型中核心类以及类之间的相互关系, 通过关系图的形式表达出来。

图5 非遗视频资源语义标注本体模型

(1) 人物类。

人物类是个体、群体以及机构的统称, 是非遗活动的实施主体, 包括非遗的传承人、研究者、表演者等个人, 非遗活动中的群体以及民间组织、协会等组织机构。从非遗视频内容看, 一般指有关传承人的演述、访谈、生活等视频片段。

(2) 事件类。

个人或群体在非遗相关活动中展现出来的表演、集体仪式、社会实践、观念表述等具有活态性的表现形式。事件类是将非遗项目分解成相对独立、内聚的具有重要影响或者转折的关键事件节点。在以事件为中心的语义标注中, 事件的分解和关键事件的定义决定了语义描述的全面和完整性。

(3) 物体/实物类。

实物类是非遗项目表达和呈现的重要载体, 泛指以物质形态存在的一切事物, 包括与非遗项目有关的制成品、道具、原材料、工具等物体。在非遗视频中主要是对工艺品制作、道具或实物细节表现等镜头。

(4) 时空类。

在非遗领域尤其在文化空间的研究中, 时间和空间是密不可分的。时空概念主要表征特定的时间范围和空间、地域, 时间段主要是描述非遗项目或事物在时间维度发展的阶段, 比如非遗的起源时期、活动的持续时间;地点类主要表征非遗项目空间维度的分布情况, 如非遗的流传区域、扩散影响的地域等。在非遗视频中, 时空类镜头一般包括表达景观、农事、日出、傍晚等表示时间概念的镜头以及村落、仪式场所、地形地貌等空间镜头, 视频中一般通过不同景别的“空境头”进行展示。

(5) 情境类。

情境是非遗视频标注中一类特殊的内容, 其主要表达主体、活动、事件等所处的天气环境、现场气氛、时代背景等信息。此类信息一般隐含在镜头之外, 但对视频内容的理解有很大帮助, 本文将情境类概括的分为自然环境与人文环境。

(6) 主题与概念。

主题与概念是资源描述所需的术语表和主题概念词汇, 在知识体系中更抽象, 处在更高层次的语义层面。主题与概念更多的是用来表示历史、社会、情感等隐性概念。

构建非遗本体模型的核心是将非遗文化元素、文化形态、对象与事件、场景、过程等要素能够在语义层面进行关联。本体构建方法可以分为手工构建的方法和采用自动、半自动技术构建的方法【20】。非遗领域概念知识既可以来源于领域专家的专业编制, 也可以来源于普通用户的共同创建。其中核心的概念主要由非遗领域研究学者编制, 以确保语义标注的准确性和完整性。通过实体抽取、概念标注、语义知识关联与融合形成结构清晰的语义层面知识, 在规范、可控的概念语义体系与自然语言术语之间建立映射关系。视频资源的语义标注以及后期的语义检索、知识服务等均有赖于有效的知识组织体系。

3 非遗视频语义标注方法的应用实例

本节对非遗视频综合语义标注方法进行应用, 建立分散、独立的知识单元与视频单元之间的各种语义关联, 实现非遗视频资源与领域知识概念的整体融合。通过对非遗视频结构的分解, 使得视频资源对象的颗粒度更细, 知识组织更加深入。同时, 本体思想在非遗领域的应用, 为人们提供可以共同理解的非遗领域高层语义概念

3.1非遗视频单元语义标注

对非遗视频单元的内容和特征进行描述是实现语义化组织的基础。视频单元语义标注是利用领域关联数据为其添加语义信息的过程, 实现视频单元与其语义描述的关联。由于标注使用的知识概念之间是相互关联的, 被标注后的视频单元之间能够有效的与彼此建立联系。关联关系的建立包括两个方面:知识概念单元之间的关联以及知识概念与视频单元之间的关联与映射。根据上文构建的语义标注本体模型, 将分散、独立存在的不同知识单元进行连接, 形成网状的知识结构, 以实现对异构的视频资源的多维度、多颗粒度的揭示。非遗视频的标注赋予了视频资源知识语义, 用视频这种直观的方式揭示非遗知识, 并与其他相关的语义资源、知识资源建立联系【21】。

如图6所示, 是对国家级非遗项目“郧西七夕节”视频资源中制作巧食视频中某一镜头的语义标注示意图。可以看出该镜头表达的主要内容是:“农历七月初七当天, 在上津镇, 传承人陈贤美正在厨房中制作巧食。做巧食事件是‘请七姐’仪式的一部分。人们制作巧食, 有祈盼心灵手巧之意。”通过对视频单元与知识概念之间的关联, 可以为用户提供更多的有关视频的背景信息, 将不同的视频单元通过某个语义概念彼此之间建立关联。

图6 非遗视频语义标注示例

对非遗视频逻辑单元的语义描述采用RDF本体描述语言, 通过RDF格式化处理可以把隐形语义关联关系转化成显性的RDF语义链接, 所有资源均通过唯一的URI (Uniform Resource Identifiers) 来进行标识。通过RDF描述将各类信息资源的自然语言表述方式转化成计算机程序可以读取和理解的格式【22】。在上文定义的非遗视频标注本体模型的基础上, 以视频逻辑单元为标注对象, 按照事件为中心的描述思想, 由用户手动对非遗视频镜头或场景进行概念的标注, 根据本体模型中概念之间的关系网络, 标注后的视频单元之间便形成了视频资源的聚类和关联。对视频逻辑单元进行语义标注后, 使其变成了一个个相互关联而又内聚的的语义对象。

3.2非遗视频语义标注方法的应用

在非遗视频综合语义标注方法和框架指导下, 开展非遗视频语义标注与描述的方法的应用实践, 开发非遗视频资源综合语义标注的工具。本文以民俗类非遗项目“郧西七夕”中的“请七姐”仪式视频资源为研究对象, 对其进行语义标注方法的应用, 首先借助MATLAB工具基于SURF的镜头分割算法对视频进行逻辑单元的分割, 读取视频的元数据并存储在视频数据库中。其次, 采用 protégé 本体编辑器对本体模型进行构建, 确定“请七姐”仪式领域的核心概念和主要属性, 包括人物群体、仪式事件、时间与地点等核心要素。由于非遗涉及的方面较广, 很难形成完善的知识语义网络。需要针对每一个具体的非遗项目, 在现有相关知识系统的基础上, 梳理项目的语义类型和语义关系, 最终构建一个完整的知识概念语义网络。最后, 对形成的RDF语义关系进行存储。

为提高领域概念和概念关联关系的准确性、科学性和完备性, 根据非遗视频语义标注本体模型, 在领域专家的协助下, 对“请七姐”民俗活动中核心属性与概念、语义关系等进行定义。如图7所示, 借助数据可视化插件对核心知识概念进行展示, 其中每个节点代表一个知识概念, 节点之间的连线代表知识概念之间的关系。

图7“请七姐”仪式核心知识概念关系

为更方便、高效的对非遗视频进行标注, 开发了视频在线语义标注工具。经过对视频的切割和关键帧的提取, 赋予视频片段及镜头唯一的通用资源标识符 (URI) , 用户通过该URI就可以浏览相关的视频片段及镜头。在语义标注过程中, 用户从领域专家制定好的知识语义库中选择语义对象, 根据视频表达的内容, 从人物、事件、时间与地点、实物、情境等方面对视频进行描述。系统将对视频单元的语义描述以RDF/XML文件的形式进行存储。

图8 非遗视频在线语义标注

视频标注的页面包括视频播放窗口、视频时间线、标注区域、属性信息等功能区, 页面中间是对该视频属性与语义对象之间的关联关系信息 (图8) 。通过视频播放窗口查看视频的主要内容及包含的语义对象;在标注区域添加要标注的元素, 从语义对象库中选择对应的语义对象;视频时间线是在时间维度上对长视频分割后的视频场景与镜头, 方便查看待标注视频单元的上下文情境。在线标注工具有效的提高了视频单元标注的效率, 通过可视化的形式直观的对视频单元进行标注, 保证人工标注过程的准确性和全面性。

4 结语

视频语义标注是现实视频资源有效组织和利用的重要过程, 通过非遗视频的语义标注, 使其成为独立的语义对象。本文提出了一种针对非遗视频语义标注的方法, 该方法首先采用基于SURF算法和窗口阈值判断的镜头分割方法, 将非遗视频解构成视频片段、场景、镜头与关键帧等不同颗粒度的逻辑单元。然后对非遗领域知识语义进行分析, 提出了非遗视频语义标注的本体模型, 该模型以人物、事件、实物、时空、情境、视频媒体资源等为核心。最后, 对非遗视频逻辑单元与领域语义概念之间进行映射, 为非遗视频提供丰富的语义背景信息。非遗视频语义标注方法的研究, 不仅可以实现对海量非遗视频资源的有效管理, 同时将非结构化的视频数据转化成机器可理解与识别的具有明确语义的资源, 为用户提供资源语义检索、知识可视化、个性化推荐等服务, 对非遗数字化保护与传播具有重要的意义和价值;

目前非遗视频的语义标注还主要靠人工标注, 比较耗费人力和财力, 标注的准确性受到人工认知的影响。自动化视频标注缺少较为系统的训练样本, 标注的通用性与准确性还有待提高。本文针对非遗视频资源提出了一套较为完整的视频语义标注方法, 但仍有许多待完善的地方。在非遗领域知识语义分析方面, 需要继续对非遗领域知识概念体系进行完善, 与非遗领域专家合作构建全面、系统的非遗视频标注的术语表。

【字体：小大】【收藏】【打印】【关闭】

上一篇：新时代中国文化产业与旅游产业深度融合发展的若干思考
下一篇：非遗视角下中国传统调味品的创新发展