网络的起源:挫折

时光飞逝,实际上差不多是二十年前,我想重新定义我们使用信息的方式,我们合作的方式,我称之为万维网。现在,二十年过去了,TED,我想请求你们的帮助,进行一次新的重塑。

回到1989年,我写了一份备忘录,建议建立一个全球超文本系统。没有人真正对此采取行动。但十八个月后——你知道,这就是创新的发生方式,十八个月后,我的老板说我可以在业余时间做这个项目,作为一种娱乐项目,在我们拥有的计算机上进行。因此,他给了我时间来编写代码。

所以,我基本上勾勒出了HTML的样子,超文本协议HTTP,URL的概念,这些名称用于排序HTTP。我写了代码,并发布了它。为什么我要这样做?嗯,基本上是因为挫折。我在一个非常令人兴奋的大实验室里担任软件工程师,来自世界各地的人们带来了各种不同的社区,他们带来了各种不同的数据格式,各种类型的文档系统。

因此,在所有这些多样性中,如果我想弄清楚如何从中构建一些东西,我必须连接到某台新机器,我必须学习运行某个新程序。我会发现数据可能是我想要的信息,以某种新的数据格式存在,而它们都是不兼容的。这种挫折感源于所有这些未被开发的潜力。事实上,在所有这些磁盘上,都有文档。所以,如果你能想象它们都是天空中某个大型虚拟文档系统的一部分,那么——比如在互联网上,那生活会变得容易得多。

好吧,一旦你有了这样的想法,它就会深入你的内心,即使人们不读你的备忘录(实际上他读了,后来他去世后发现了他的副本,他在角落用铅笔写下了“模糊但令人兴奋”)。

草根运动

但总的来说,很难解释——真的很难解释网络是什么样的,你不知道——很难向人们解释那时的困难。但那时,TED刚开始时,没有网络。所以我们——类似点击的东西有相同的意义。我可以向某人展示一段超文本,一个有链接的页面,我们点击一个链接,,会有另一个超文本页面。

不令人印象深刻,你知道,我们已经见过了,我们在CD-ROM上有超文本的东西。困难的是让他们想象。所以想象一下那个链接可以指向你能想象的几乎任何文档。好吧?这是人们很难做到的飞跃。好吧,有些人做到了。所以是的,很难解释,但这是一场草根运动。这是让它变得最有趣的原因。那是最令人兴奋的事情,不是技术,不是人们用它做的事情,而是实际上是社区,是所有这些人聚在一起,发送电子邮件的精神。那就是当时的样子。

你知道吗,现在又有点像那样了。我大致上请求每个人把他们的文档放到这个网络上。你们做到了,谢谢。这真是太棒了,不是吗。我是说,这非常有趣,因为我们发现网络上发生的事情真的让我们大吃一惊。它们远远超出了我们最初想象的,当我们把初始网站放在一起时。

数据的重要性

现在,我希望你把你的数据放到网上。事实证明,还有巨大的未开发潜力。人们仍然感到巨大的挫折,因为我们没有把数据作为数据放到网上。你是什么意思,“数据”,文件和数据有什么区别?好吧,文件是你阅读的,对吧?差不多,你可以阅读它们,你可以从中放一个链接,仅此而已。数据,你可以用计算机做各种事情。

谁在这里,或者,不知道,是否看过汉斯·罗斯林的演讲。当汉斯·罗斯林在TED时,是的,很多人看过,因为这是TED最伟大的演讲之一。汉斯做了一个演示,他展示了不同国家以不同颜色展示的收入水平和婴儿死亡率,并展示了这个东西随时间的动画。所以他收集了这些数据,做了一个演示,打破了人们对发展中国家经济的许多误解。他展示了一张类似这样的幻灯片。它地下有所有的数据。

好吧,数据是棕色的,方形的,无聊的,等等(?),这就是我们对它的看法,不是吗,数据?因为数据你不能自然地单独使用。但实际上,数据驱动着我们生活中发生的大量事情。它发生是因为有人拿走了这些数据,并用它做了些什么。在这种情况下,汉斯,他可以把数据放在一起,他从各种联合国网站和东西中找到的。他把它放在一起,结合成比原件更有趣的东西。然后他把它放入这个软件中,我想是Sun最初开发的,并制作了这个精彩的演示。

汉斯强调说,拥有大量数据真的很重要,我很高兴看到,昨晚的聚会上,他仍然非常强烈地说,拥有大量数据真的很重要。

关联数据的原则

所以我现在想让我们思考,不仅仅是两块数据被连接,或者像他那样的六块,而是我想象一个世界,所有人都把数据放到了网上,因此你能想象的几乎任何东西都在网上,我称之为关联数据。技术是关联数据,而且非常简单。

如果你想把东西放到网上,有三个规则。第一件事是,那些HTTP名称,那些以“http:”开头的东西,我们不仅仅用它们来表示文档,现在我们用它们来表示文档所涉及的东西。我们用它们来表示人,用它们来表示地点。我们用它们来表示你的产品。我们用它们来表示事件。所有类型的概念性事物它们现在都有名称,以“http”开头。

第二个规则是,当——如果我拿一个这些“http”名称,我去做网络上的事情,我用HTTP协议从网上获取数据,我会得到一些以标准格式返回的数据,这些数据可能是关于那个事物的重要信息,关于那个事件,谁在事件上,无论是关于那个人,他们在哪里出生,诸如此类的事情。所以,第二个规则是:我得到重要的信息。

第三个规则是,当我得到这些信息时,它不仅仅是某人的身高和体重以及他们的出生日期,它有关系。数据就是关系。有趣的是,数据就是关系。它有这个人在柏林出生,柏林在德国,当它有关系时,无论它表达这种关系的是什么,那么它所关联的另一个事物都有一个以“http”开头的名称。所以我可以继续查找那个东西。

所以我查找一个人,我可以查找他们出生的城市,然后我可以查找它所在的地区,以及它所在的城镇和它的人口,等等,所以我可以浏览这些东西。就是这样。那就是关联数据。我几年前写了一篇题为“关联数据”的文章,不久之后,事情开始发生。关联数据的想法是,我们得到很多很多很多这些盒子,汉斯拥有的盒子,我们得到很多很多很多的东西在生长。它不仅仅是一个植物供应的根。

但对于每一个植物,无论它是什么,一个演示,一个分析,某人在数据中寻找模式,他们可以查看所有的数据,并将它们连接在一起,关于数据的真正重要的事情是,你连接在一起的东西越多,它就越强大。

它正在发挥作用:DBpedia

因此,关联数据,理念传播开来。很快,柏林自由大学的克里斯·比泽尔是第一个将有趣的东西放上去的人之一。他注意到维基百科,你知道维基百科,在线百科全书,里面有很多很多有趣的文档,嗯,在那些文档中,有小方块,小盒子,那些信息盒子里有数据。

所以他写了一个程序,从维基百科中提取数据,并将其放入网络上的一个关联数据块中;他称之为dbpedia。Dbpedia在这张幻灯片的中间用蓝色块表示。如果你实际去查看柏林,你会发现还有其他数据块也有关于柏林的东西,它们是相互关联的。因此,如果你从dbpedia中提取关于柏林的数据,你最终会提取出这些其他东西。令人兴奋的是:它开始增长。这又是一场草根运动,好吗?

现在让我们考虑数据(??)。数据实际上有很多很多不同的形式。想想网络的多样性。网络允许你上传各种数据,这真的很重要。因此,数据也是如此。我可以谈论各种数据。我们可以谈论政府数据,企业数据非常重要。有科学数据,有个人数据。有天气数据,有关于事件的数据。有关于演讲的数据,还有新闻,还有各种各样的东西。我只会提到其中的一些,以便你了解它的多样性,以便你也看到多少未开发的潜力。

政府数据

让我们从政府数据开始。巴拉克·奥巴马在一次演讲中说,美国政府的数据将在互联网上以可访问的格式提供。我希望他们能以关联数据的形式发布。这很重要。为什么重要?不仅仅是为了透明度。是的,政府的透明度很重要。但这些数据,这是来自所有政府部门的数据。想想这些数据中有多少是关于美国人生活的。它实际上是有用的,它有价值。我可以在我的公司中使用它。我可以作为一个孩子来做我的家庭作业。所以我们在谈论通过提供这些数据来让世界更好地运行。

现在要求原始数据

事实上,如果你负责,如果你知道政府部门中的一些数据,你会发现这些人,他们很容易被诱惑去保留它,进行数据库拥抱。你拥抱你的数据库,不想放手,直到你为它制作了一个漂亮的网站。好吧,我想建议在你——是的,制作一个漂亮的网站(我是谁来说“不要制作一个漂亮的网站”)。制作一个漂亮的网站,但首先,给我们未加工的数据。我们想要数据。我们想要未加工的数据。好的。

我们现在必须要求原始数据,我会请你练习一下,好吗?你能说“原始”吗?你能说“数据”吗?你能说“现在”吗?对:“原始数据现在”。练习一下,这很重要,因为你不知道人们想出多少借口来保留他们的数据,而不是给你,即使你作为纳税人已经为它付了钱。这不仅仅是美国,当然也是企业。

科学数据

所以我只会提到一些其他的数据来源。好吧,我们在这里,TED,我们一直非常清楚人类社会现在面临的巨大挑战。治愈癌症。理解阿尔茨海默症的大脑。理解经济,使其更加稳定。理解世界如何运作。那些将要解决这些问题的人是科学家,他们在脑海中形成了坚定的想法。他们试图通过网络传达这些想法,但目前人类的许多知识状态都在数据库中,通常坐在他们的计算机中,实际上通常不共享。

事实上,我只会提到一个领域:如果你在研究阿尔茨海默症,例如,药物发现,有大量的关联数据刚刚出现,因为该领域的科学家意识到这是摆脱那些孤岛的好方法。因为他们在一个数据库和一个建筑中有基因组数据。他们在另一个地方有蛋白质数据。现在他们正在把它粘贴到上面:关联数据。现在他们可以提出一个问题,一个你可能不会问的问题,我不会问,他们会问:“哪些蛋白质参与信号转导并且也与金字塔神经元相关?”

好吧,你拿走那个(??),如果你把它放到谷歌上,当然,网上没有页面可以回答这个问题,因为没有人以前问过这个问题。你得到223,000个结果:没有你可以使用的结果。你问他们现在放在一起的关联数据:32个结果,每个都是具有这些特性的蛋白质,你可以查看。能够问科学家这些问题的能力,那些实际上跨越不同学科的问题,真的是一个完全的(??)变化。这非常非常重要。科学家们完全(??)在那里的时刻(?)。其他科学家收集的数据的力量被锁定了,我们需要解锁它,以便我们解决那些巨大的问题。

个人数据

现在,如果我继续这样说,你会认为所有的数据都来自大型机构,与您无关。但事实并非如此。实际上,数据是关于我们生活的。你只是——你登录到你的社交网络网站,选择你喜欢的一个,你说“这是我的朋友”,,关系,数据。你说“这张照片,哦,它是关于——它描绘了这个人”,,那是数据。数据数据数据。

每次你在社交网络网站上做事情,社交网络网站都在获取数据并使用它,重新利用它。并使用它使其他人在网站上的生活更有趣。但当你去另一个关联数据网站时,你说这个关于旅行的,你说“我想把这张照片发送给那个群组中的所有人”,你无法越过墙。经济学人写了一篇关于它的文章,很多人对此进行了博客,极大的挫折。打破孤岛以实现社交网络网站之间的互操作性的方法,我们需要用关联数据来做到这一点。

OpenStreetMap

我将谈论的最后一种数据类型,也许是最令人兴奋的,在我来这里之前,我查看了OpenStreetMap。OpenStreetMap是一张地图,但它也是一个维基。放大,那是我们现在所在的剧院,露台剧院。它没有名字。所以我可以进入编辑模式,我可以选择剧院。我可以在底部添加名称。然后我可以保存它,现在如果你回到openstreetmap.org,你找到这个地方,你会发现露台剧院有一个名字。我做到了,我。我在地图上做到了。我刚刚做了,我把它放在那里,你知道吗?如果我——街道地图是关于每个人都做他们的一点点,这创造了一个令人难以置信的资源,因为其他人都做了他们的部分。

这就是它的全部意义所在

这就是关联数据的全部意义所在。它是关于人们做他们的一点点,并且它们都连接在一起。这就是关联数据的工作原理。但你做你的一点,其他人也这样做。你可能没有很多数据需要——你自己放在那里,但你知道要去要求它,我们已经练习过了。所以,关联数据是巨大的。我只告诉你很少的一部分。在我们生活的每个方面都有数据,每个工作和娱乐方面,好吗?这不仅仅是关于数据来自多少地方。它是关于将它们连接在一起,当你将数据连接在一起时,你会以一种仅仅通过网络,通过文档无法实现的方式获得力量。你从中获得了真正巨大的力量。

所以,我们现在处于一个阶段,我们必须这样做。那些——认为这是个好主意的人。以及所有的人,我认为TED上有很多人,他们做事情,因为即使没有立即的投资回报,你也有——因为只有当其他人都这样做时,它才会真正回报,他们会这样做,因为他们是那种人,他们只是做事情,如果其他人都这样做会很好。好吗?所以它被称为关联数据。我希望你去做。我希望你去要求它。我认为这是一个值得传播的想法。谢谢。

版权声明

Copyright (c) 2024 GaoWei Chang
本文件依据 MIT 许可证 发布,您可以自由使用和修改,但必须保留本版权声明。