搜索引擎发展历史
现实意义上的搜索是1990年由特利尔大学学生Alan Emtage开发的Archie。虽然当时World Wide Web还未出现,但网络中文件传输已经相当频繁,而且由于大量的文件散布在各个不同的FTP服务器中,形成了巨量的信息源。Alan的Archie依靠脚本程序搜索网络上的文件,公分母对其进行索引,供使用者查询。由于Archie深受用户欢迎,受其启发,美国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工具,不过该搜索工具除了能索引文件外,还能检索网页。
当时,“机器人”一词十分流行,它是指快速不间断地执行某项任务的程序。由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎“机器人”程序也被称为“蜘蛛”程序。世界上第一个监测互联网发展规模的“机器人”程序是Matthew Gray开发的World Wide Web Wanderer。刚开始它只用于统计互联网上服务器的数量,后来则发展到能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目录。(高端网站建设)
随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,将传统的“蜘蛛”程序作了改进。其设想是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天的Overture,已被雅虎收购)和Repository-Based Software Engineering(RBSE)spider最负盛名。然而JumpStation和只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。最早现代意义上的搜索引擎出现于1994年7月。当时Micheal Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨致远(Jerry Yang)共同创办了超级目录索引雅虎,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了调整发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例如,Google号称数据库中存放的网页已达40亿。