阳子SEO博客

搜索引擎的原理及发展前景分析

搜索引擎是指在万维网环境下,能够响应用户提交的搜索请求并返回相应查询结果信息的技术和系统。它是一个可以在互联网上查询网站或网页信息的工具。它包括三个部分:信息收集、信息整理和用户查询。搜索引擎有两种服务模式:目录服务和关键词搜索服务。目录服务是由分类专家根据主题将网络信息分成几类,用户可以根据分类清楚地找到自己需要的内容。关键字搜索服务可以找到包含一个或多个特定关键字或短语的万维网站点。搜索引擎是互联网的第二大核心技术,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等领域的理论和技术,因此它是全面的、具有挑战性的。1搜索引擎的发展

在1990年之前,没有人可以搜索互联网。在互联网发展的早期,信息量很小,大多数互联网用户都是专业人士。那时,查找信息相对容易。随着互联网的爆炸式发展,普通互联网用户要找到他们需要的信息就像大海捞针。这时,搜索引擎已经出现,以满足公共信息检索的需要。所有搜索引擎的祖先可以追溯到1990年由蒙特利尔麦吉尔大学的学生艾伦恩塔格、彼得多伊奇和比尔惠兰发明的阿奇。虽然那时万维网还没有出现,但因为当时网络的主要目的是传输文件,所以网络中的文件传输相当频繁。由于大量的文件分散在各种分布式的FTP主机上,查询起来非常不方便,所以艾伦恩塔格想到开发一个可以按文件名搜索文件的系统,于是阿奇就应运而生了。

1993年,内华达州的系统计算服务大学开发了一个非常类似阿奇的搜索工具,它可以搜索文件和网页。

1994年4月,斯坦福大学的两位博士生大卫费罗(David Filo)和美籍华人杨致远共同创建了超级目录索引雅虎(Yahoo),成功地使搜索引擎的概念深入人心。从那以后,搜索引擎进入了一个快速发展的时期。

1998年,斯坦福大学的两位博士生拉里佩奇和谢尔盖布林开发了世界上最大的搜索引擎——谷歌。通过整理超过20亿个网页,谷歌可以为全世界的用户提供合适的搜索结果,搜索时间通常不到半秒钟。现在,谷歌每天需要向全世界的用户提供1.5亿次查询。

1997年10月29日,北京大学天网正式向互联网用户提供网络信息导航服务。它是北京大学计算机系网络与分布式系统研究室开发的国家重点科技攻关项目“中文编码与分布式中英文信息发现”的研究成果,受到了学术界的广泛好评。

2000年1月,两位北大校友,前Infoseek高级工程师李彦宏和加州大学伯克利分校博士后徐勇,在北京中关村创建了百度公司。经过五年的快速发展,百度在最近两年跻身世界八大网站之列,成为世界十大网站之一。百度每天收到来自各方面的超过1亿次内容检索请求,9400万中国网民几乎每天使用百度一次。“有问题就百度一次”已经成为中国互联网上的流行语之一。

2002年,中文搜索正式进入中文搜索引擎市场。在一年多的时间里,它已经发展成为世界知名的中国搜索引擎服务提供商,为新浪、搜狐、网易和TOM等知名门户网站提供搜索引擎技术。HC搜索引擎的优势在于它可以通过人工检查网站信息源和设置禁语来有效过滤不良信息,减少垃圾信息的内容。

2搜索引擎的工作原理

简而言之,搜索引擎通过从互联网上提取每个网站的信息来建立数据库,检索与用户的查询条件相匹配的相关记录,然后按照一定的顺序将结果返回给用户。根据从搜索引擎提取数据的方法,搜索引擎系统可以分为三类:

2.1目录搜索引擎:这是一个网站级的搜索引擎。分类专家根据主题将网络信息分为几大类,每个大类又依次细分为几个子类。搜索引擎的一般分类系统有五六层,有些甚至超过十层。首先,程序自动收集信息,然后编辑检查信息,手工形成信息摘要,并提供目录浏览服务和直接检索服务。由于目录搜索引擎的信息分类和信息收集涉及到人,其搜索准确率相当高,缺点是人工干预、维护量大、信息量小、信息更新不及时。

2.2机器人搜索引擎:机器人这个词对每个人来说并不陌生。计算机机器人是指一种自动程序,它可以以人类无法达到的速度重复执行任务。由于专门用于检索信息的机器人程序像蜘蛛一样在网络上爬行,搜索引擎的机器人程序被称为蜘蛛程序。搜索引擎主动发送一个名为蜘蛛的机器人程序进行定期搜索,并在一定的IP地址范围内搜索互联网网站。一旦找到一个新网站,它将自动提取该网站的信息和地址,并将其添加到自己的数据库中。这种搜索引擎具有信息量大、更新及时、无需人工干预的优点,但缺点是返回的信息太多,而且有很多不相关的信息,所以用户必须从搜索结果中进行过滤。

cache
Processed in 0.016151 Second.