乔纳森·弗莱切

  导语:英国BBC网站周二刊登题为《乔纳森·弗莱切:被遗忘的搜索引擎之父》(Jonathon Fletcher: forgotten father of the search engine)的评论文章称,虽然乔纳森·弗莱切的大名并不为多数人所知,但全世界现代搜索引擎却出自他的手笔。尽管因为种种原因,令他的项目没有持续下去,但他开发的技术却为后来的所有网络搜索引擎奠定了基础。

  以下为文章全文:

  在谷歌迎来15岁生日之际,这家网络巨头已经成为了信息检索的代名词。

  然而,如果你在谷歌上搜索乔纳森·弗莱切(Jonathon Fletcher)的名字,却无法立刻了解他在万维网发展历程中所扮演的角色。当然,也几乎没有什么信息将他誉为“现代搜索引擎之父”。

  但在20年前,在苏格兰斯特灵大学的一间电脑实验室里,正是弗莱切发明了世界上采用网络爬虫技术的搜索引擎——无论是谷歌、必应还是雅虎,当今的所有大型搜索引擎工具都使用了这项技术。

  解决搜索问题

  1993年,网络世界刚刚萌芽。全世界广受欢迎的浏览器Mosaic发布不久,全球网页总数仅有几千个。但即使是在那时,如何检索网络信息仍是一个未解难题。

  Mosaic有一个名叫What's New的页面,可以在新网站创建后索引这些内容。但问题在于,如果要让Mosaic的开发者发现自己的网站,站长们必须写信给该浏览器所在的美国伊利诺伊大学香槟分校超级计算机应用中心(NCSA)。

  彼时,乔纳森·弗莱切还是斯特灵大学的明星毕业生,刚刚得到了格拉斯哥大学的博士全额奖学金。但在他启程前,格拉斯哥大学的奖学金却取消了,弗莱切似乎走进了死胡同。

  “我突然之间必须自谋生路,所以我回到斯特灵大学,在技术部找了一份工作。”他回忆说。

  是在那个岗位上,他邂逅了万维网和Mosaic的What's New页面。

  更好的方式

  在为斯特灵大学建设网络服务器时,弗莱切发现What's New页面存在一个本质缺陷。由于网页是手工添加的,所以无法追踪内容变化。所以,链接很快会过期,还可能被错误标记。

  “如果你想知道有什么变化,必须回过头去亲自查看。”弗莱切提到Mosaic的链接时说,“我有计算机学位,而且我觉得应该可以有一种更好的方式,所以我决定写一个程序来帮助我查找内容。”

  于是,便有了世界上第一个网络爬虫。

  弗莱切将他的发明命名为JumpStation。他汇集了一个网页的索引,然后利用网络爬虫展开搜索。这本质上是一套全自动的程序,可以汇集它所访问和索引的所有链接和所有网页。直到遍历了所有内容,这套程序才会停止。

  10天后,也是1993年12月21日,JumpStation遍历了所有网页,索引了2.5万个页面。

  而,谷歌的页面索引量超过了1万亿。