网络信息采集专家_网络数据采集专家-军犬网络采集系统( 稳准狠快)
军犬网络采集系统首页 |  军犬系统介绍 |  军犬采集解决方案 |  军犬采集系统试用 |  采集技术交流 |  军犬采集客户案例 |  军犬采集动态 |  联系我们 | 加入收藏
当前位置:首 页 > 采集技术交流 > 正文

Google是怎样抓取网页的

发布日期:2009-03-24


   一般情况下,把一个网站递交到互联网上,在每月固定更新之前,你会发现这个网站出现在索引里。有时,这个网站能够获得很高的排名,但可怕的 是,几天或一周以后,这个网站会突然消失。这种幽灵现象困扰着网络新手们,同时也给经验丰富的网络行家出了一道难题。其实,这种现象很容易理解。
   Google有两种网络爬虫,主爬虫和新爬虫。主爬虫主要负责发现新的网页。一个网页在新索引建立之后,马上会被主爬虫发现。如果一个网页建立索引需要经过一个月的时间,这个网页就会失效。 
   新索引的建立还需要考虑其他非询问式的决定因素。这些决定因素关系着网页排名的高低。为了充分利用这些网页,而不是浪费时间等着下一次索引算法的更新,Google必须采取一些简单的措施来猜测排 名,猜测访客难以利用的新内容是什么。

尽管Google在作猜测,下列内容都是真实可信的:

1) 幽灵登陆页上的排名不能等同于索引页的排名。
2) 在每月新数据库建立之前,必须将幽灵登陆页从数据库中移走。但是,这只是暂时的移走。

  如果您的索引中有这样登陆页,您的主要目标应该是让该页在Google新页上拥有排名。若您想做到这点,您需要定期、有规律、最好是每天,有一定间隔地更新网站内容。

  为什么您想要在Google的新页上获取排名?因为在新页上有排名的网站更容易被抓取,索引更容易更新。但是在新页上的排名不是真正的排名,新页排名有很强的不稳定性。新页排名转化为真正排名需要经过一段时间。

  还有一种情况。如果一个新网页首先被“主抓取”蜘蛛抓取(这通常发生在一月的下旬),那么这个网页只等一个月的时间就可以进入“主索引”。
网站设计者和拥有者如果不了解Google抓取新网页的过程,他们的工作将难以开展。网页排名可能一路飙升,名列前十名,让人欣喜若狂,也可能陡然狂降,甩出二百名开外,令人垂头丧气。抓住 Google抓取新网页的过程规律
 
 


Copyright©2008-2012 中科点击军犬软件版权所有 京ICP备11012241-3号 军犬网络采集系统专业提供:网络信息采集 网络数据采集 网站信息采集