« 如何通过整合营销提高网站流量?英文网站如何进行软文推广 »

搜索引擎蜘蛛是如何抓取网页信息

  当用户搜索关键词的时候,搜索引擎程序会从服务器中的数据库中找到相关信息,进行相关性匹配,然后排序,最后展示给用户一个搜索结果。

  搜索引擎的数据库中包含大量的网页信息,而且不断在更新变化,今天主要是谈搜索引擎是如何获得这些网页并存储起来的。

  关于搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立。

  蜘蛛程序如何抓取网页

  互联网就是由一个个链接构成的,蜘蛛程序顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行。

  当给它足够的时间,他就会找到互联网所有的网页信息(至少是被链接的),在爬行的时候,它还会不断的想服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被索引,所以提高网页的索引数据(收录量)对于一个网站的搜索引擎优化(SEO)是非常有利的。

  链接信息处理

  当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体,查看描述这些链接的载体。

  蜘蛛程序处理网页更新

  互联网上存在在网页太多太多,一些是经常更新的,一些是一年半载都没有变化的,那么,如果网页更新了,如果等到蜘蛛回到这里发现更新信息,可能要等上几天甚至几周的时间了,这也是为什么我们有时候在搜索引擎点击一个搜索结果,会发现“网页无法打开”、“你所查找的页面已经被删除”等等情况,这是因为蜘蛛程序上次成功抓取并存放在搜索引擎索引中的信息,而现在这个页面的地址或内容现在发生了变化。

  所以这里我们要做的,就是努力增加蜘蛛爬行页面的频率,以保证我们网页在搜索引擎数据库中的索引是最新的。

  比如蜘蛛程序今天访问了网站的两个网页并成功抓取,隔了两个星期,它再来访问这两个页面的时候,这两个网页其中一个更新了,另一个确没有,那么,蜘蛛程序可能会在一个星期内再次回访更新过的那个网页,而在一个月后才去访问没有更新的那个网页,随着时间的推移,蜘蛛程序会更加频繁是爬行经常更新的网页,以达到更新服务器中的索引数据,向用户提供最新的网页信息。

  今天主要分享搜索引擎爬行并抓取网页信息的过程,下次更新会分享搜索引擎对网页内容的分析处理。

发表评论:

搜索

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。