Tim Berners-Lee

Date: 2006-07-27
Last Change: $Date: 2009/06/18 18:24:33 $
Status: 仅代表个人观点
Editing Status: 尚未完善,但已发布

返回设计问题

链接数据 (Linked Data)

语义网不仅仅是将数据放在网上,而是关于如何创建链接,使得人或机器能够探索数据的网络。通过链接数据,当你拥有部分数据时,可以找到其他相关数据。

与超文本网络相似,数据网络是通过网络上的文档构建的。然而,不同于超文本网络中的链接是HTML文档中的锚点,数据网络中的链接是由RDF描述的任意事物之间的关系。URI可以标识任何类型的对象或概念。而无论是HTML还是RDF,都有共同的期望来促进网络的增长:

  1. 使用URI作为事物的名称。
  2. 使用HTTP URI,使得人们可以查找这些名称。
  3. 当有人查找URI时,提供有用的信息,使用标准(如RDF、SPARQL)。
  4. 包含指向其他URI的链接,以便发现更多事物。

这些规则简单明了。然而,尽管如此,在2006年,仍有大量数据未被链接,原因在于某些步骤的问题。本文讨论了这些问题的解决方案、实施细节以及影响数据发布选择的因素。


四项规则

上述步骤可以称为规则,但实际上它们是行为的期望。违反这些规则并不会破坏任何东西,但会错失将数据互联的机会。这反过来限制了数据在未来意外重用中的可能性。而这种意外重用正是网络的增值所在。

规则一:使用URI标识事物

这一点对于从事语义网技术的大多数人来说已经很清楚。如果不使用通用的URI符号集,就不能称之为语义网。

规则二:使用HTTP URI

这一规则也广为人知。然而,自网络诞生以来,人们经常倾向于发明新的URI方案(如LSIDs、DOIs、XRIs等)。通常,这种行为源于不想使用域名系统(DNS)来分配权限,或者对HTTP URI作为名称(而非地址)的理解不足。

规则三:提供信息服务

对于大多数本体来说,这一规则在2006年已被较好地遵循。然而,一些重要的数据集仍未遵守。通常可以查找数据中的属性和类别,并从RDF、RDFS和OWL本体中获取信息。然而,许多数据集仍然埋藏在压缩包中,而不是作为链接数据在线提供。

规则四:创建链接

为了将数据连接成一个真正无限的网络,必须创建链接。在超文本网络中,不链接到相关外部材料通常被视为不好的礼仪。同样,在语义网中,你的数据价值也取决于它链接到的内容以及其本身的价值。


基本链接数据的创建

最简单的链接数据方法是使用一个文件中的URI指向另一个。例如: 在RDF文件中可以使用本地标识符,如#albert,在N3格式中表示为:

<#albert> fam:child <#brian>, <#carol>.

这使得全球范围内都可以使用类似http://example.org/smith#albert的全局标识符来引用Albert,从而增加了语义网的价值。


URI的变体:无斜杠与HTTP 303

在某些情况下,将标识符划分到文档中可能效果不佳。例如,某些情况下会用到http://wordnet.example.net/antidisestablishmentarianism#word这种URI格式。对于这种情况,可以使用HTTP 303跳转,使得概念的URI指向其描述文档的URI。


FOAF与rdfs:seeAlso

在FOAF文件中,通过给出两个属性,可以链接到另一个人:

<#i> foaf:knows [
    foaf:mbox <mailto:[email protected]>;
    rdfs:seeAlso <http://example.com/foaf/joe>
].

这种方式形成了一个不断增长的社交网络,但它的缺点是无法为人分配唯一的URI。因此,建议创建FOAF文件时,为自己分配一个URI,同时在引用他人时使用他们的URI。


可浏览的图形数据

数据的可浏览性是创建链接时的重要模式。这使得人们可以逐步探索并理解数据的结构。

可浏览图

现在我们已经讨论了如何创建链接的方法,接下来我们看一下在何时创建链接的选择。

一种重要的模式是一个可以通过链接逐步探索的数据集。这种模式类似于网页浏览器中使用的浏览超链接的方法。在语义网中,数据的结构和关联使得可以通过URI逐步获取和理解相关信息。这种方式被称为“可浏览图”(Browsable Graph)。

数据浏览模式

在可浏览图中,数据被组织为节点(Node)和边(Edge)。节点代表对象或概念,边表示节点之间的关系。用户或机器可以通过遍历这些关系,从一个节点跳转到另一个节点,从而发现更多的信息。

例如:

  1. 从一个人的FOAF文件开始,您可以找到他们的朋友。
  2. 然后,通过朋友的URI,您可以找到该朋友的其他属性或关系,例如他们参与的项目。

这种数据浏览模式不仅有助于信息的发现,还能通过多方的数据交互创建更丰富的语义网络。

语义网的未来

创建一个连接良好的数据网络需要全球范围的合作和一致性。这包括:

  1. 提供高质量的URI。
  2. 遵循HTTP URI标准。
  3. 使用开放的、通用的格式,如RDF和SPARQL。
  4. 提倡数据互联,而不是单独孤立的数据集。

Tim Berners-Lee在文章中强调,语义网的潜力在于“意想不到的重用”(Unexpected Reuse)。通过将数据以链接的方式组织起来,语义网不仅扩展了信息的发现和使用范围,也为未来创造了无数的可能性。


**注释:**本文基于Tim Berners-Lee的观点翻译,部分内容可能因语义调整而有所不同,旨在方便理解语义网和链接数据的核心思想。

版权声明

Copyright (c) 2024 GaoWei Chang
本文件依据 MIT 许可证 发布,您可以自由使用和修改,但必须保留本版权声明。