×

您的手机?

新闻中心

这里有您想知道的最新资讯与动态
中山seo搜索引擎工作过程,如何布局结构链接,提升蜘蛛友好度
  • 发表时间: 2019-07-02
  • 浏览次数: 28012

搜索引擎引擎的工作过程非常复杂,其工作过程大致可以分为三个阶段

1.网页收集:搜索引擎蜘蛛通过链接进行爬行和住区,将抓取到的页面存储到原始数据库中

2.预处理:搜索引擎蜘蛛抓到的页面不能直接进行用户查询混排名,需要进行预处理

3.检索服务:用户输入查询词后,排名程序调用索引数据中的数据,用户用户搜索词相关的页面按照排序顺序彰显给用户

搜索引擎是通过蜘蛛程序对互联网中的网页进行抓取和收集的,网页收集是搜索引擎工作的第一步,了解手所引起网页的抓取机制,便于蜘蛛抓取更多的页面,使得网站有更好的排名

什么是蜘蛛

蜘蛛:网络爬虫,又被称为网页蜘蛛,网络机器人,是按照一定规则,自动抓取互联网网页的程序和脚本

蜘蛛的工作方式:对于互联网中的网站来说,如果没有对其中的链接进行屏蔽设置,蜘蛛就可以通过链接在网址或者网站之间进行爬行和抓取,由于互联网中的网页页面链接结构异常,蜘蛛需要采取一定爬行策略才能进行抓取多的页面

简单爬行策略有两种:一种是深度优先,一种是广度优先。

深度优先:是指蜘蛛会从起始网页开始,一个链接接着一个链接跟踪吸取去,出来完这条线路之后再进入下一个起始页继续跟踪链接。

如图1所示:

图1

深度优先模式,蜘蛛从f页面爬行到A1、A2、A3页面,到A3页面后,已经没有其他链接可爬行了,就会返回到f页面,顺着页面上的另一个链接爬行到B1、B2、B3页面。在深度优先策略中,蜘蛛一直爬到无法再向前,才会返回爬行另一条线路

广度优先:是指蜘蛛会抓取起始网页链接中所有的链接,然后再选其中的一个链接页面,继续抓取在此页面中的所有页面,这是常用的方式,因为这个方法可以让网络蜘蛛并行处理,提升其抓取速度

如图2所示:

图2

是广度有限的模型图,蜘蛛从f页面顺着链接爬行到A1、B1、C1页面,直到f页面上的所有链接都爬行完,再从f页面发现的下一层链接A1爬行到A2、A3、A4页面

深度优先和官渡优先通常都是混合使用的,这样既可以照顾到尽量多的网站,也可以照顾到一部分网站的内页,勇士也会考虑页面权重、网站规模、外链、更新等因素,而且搜索引擎为了提升爬行和抓取的速度,都是用多个蜘蛛并发分布爬行,根据这一原理,在优化网站时,应该合理设置网站中的链接(内链的结构布局),便于直至顺序的爬行网站中的各个页面