当前位置:首页 » 百度竞价优化 » 正文

搜索引擎的蜘蛛爬取规则及方式是什么?

27748 人参与  2019年12月25日 21:04  分类 : 百度竞价优化  评论

  蜘蛛爬行策略一般会面对这三点,巨大的数据量、快速的更新频率和动态页面的产生,这三个网络特征会造成爬虫抓取策略变得难。我们之前一直强调每天更新数量不要过多,定期更新,最好使用伪静态页面,这里再次提醒站长们在做网站时要注意这些。我们今天提到了蜘蛛爬取网页,就想要更深入挖掘为站长们提供分享这些内容。

  蜘蛛是如何爬取内容的

  蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站和网站的首页,在这里不包括新站,蜘蛛对于新站有考核期),在抓取这些网页的内容时发现一些指向另外一些一些页面的链接。蜘蛛会把这些链接保存在自己的数据库里面,然后再根据抓取顺序依次来抓取这些网页。

  、蜘蛛抓取网页的规则:

  对于蜘蛛说网页权重越高、信用度越高抓取越频繁,例如网站的首页和内页。蜘蛛先抓取网站的首页,因为首页权重更高,并且大部分的链接都是指向首页。然后通过首页抓取网站的内页,并不是所有内页蜘蛛都会去抓取。

  搜索引擎认为对于一般的中小型站点,层足够承受所有的内容了,所以蜘蛛经常抓取的内容是前三层,而超过三层的内容蜘蛛认为那些内容并不重要,所以不经常爬取。

  、如何看蜘蛛的抓取?

  通过iis日志可以看蜘蛛爬取了哪些内容,iis日志有百度蜘蛛、谷歌蜘蛛等。从iis日志里分析得出蜘蛛的类型、抓取时间、抓取的页面、抓取内容的大小以及返回的页面代码,代表抓取成功、代表页面不存在。

  

.jpg


  蜘蛛抓取的方式:

  )深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

  )广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面。

  )最佳优先搜索:策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。

  【总结】在了解蜘蛛抓取过程中,我们也要知道搜索引擎工作原理。搜索引擎爬虫的工作原理一共分为抓取、过滤、收录索引、排序四大环节。

         文章来自微信公众号:网络优化SEO运营

本文链接:https://www.woshiqian.com/post/23662.html

百度分享获取地址:https://share.baidu.com/code

我是钱微信/QQ:5087088

广告位、广告合作QQ:5087088

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

       

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。