当前位置:首页 > 技术知识 > 正文

搜索引擎蜘蛛的作用(什么是搜索引擎蜘蛛蜘蛛爬行策略有哪些)

摘要: 什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?刚到公司做SEO优化的时候,公司技术就对我说做搜索引擎优化就是为了吸引蜘蛛来抓取,当时就...
什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?

刚到公司做SEO优化的时候,公司技术就对我说做搜索引擎优化就是为了吸引蜘蛛来抓取,当时就有点蒙,什么是搜索引擎蜘蛛?它们工作的原理是什么?蜘蛛爬行策略有哪些呢?今日就让SEO技术为大家科普下这方面的知识。

什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?

什么是搜索引擎蜘蛛?我们可以把互联网理解成一张巨大的“蜘蛛网”,搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。

什么是搜索引擎蜘蛛?搜索引擎蜘蛛工作原理

爬行和抓取网页:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

每家独立的搜索引擎都会有自己的网页抓取程序爬虫。爬虫蜘蛛顺着网页中的超链接分析连续访问抓去更多网页。被抓取的网页被称之为网页快照。毋庸置疑,搜索引擎蜘蛛抓取网页是有一定规律的。如下:

1、权重优先:先参照链接的权重,再综合深度优先和宽度优先策略抓取。打个比方,如果这条链接的权重还不错,就采用深度优先;如果权重很低,则采用宽度优先。

2、重访抓取:这个就可以直接字面上理解。因为搜索引擎使用单个重访与全部重访结合的居多。所以我们做网站内容要记得定期维护日常更新,让蜘蛛多来访多抓取才能收录快。

处理网页:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

搜索引擎抓取到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、超链接分析、计算网页的重要度/丰富度等。

什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?

什么是搜索引擎蜘蛛?网站和页面链接结构太过于复杂,所以蜘蛛只有采用一定的方法才能够爬完所有页面,搜索引擎蜘蛛爬行策略有3种:

1、最佳优先

最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“有用”的网页。

存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法,因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点,据马海祥博客的研究发现,这样的闭环调整可以将无关网页数量降低30%~90%。

2、广度优先

广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

3、深度优先

深度优先是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?

以上就是对什么是搜索引擎蜘蛛,搜索引擎蜘蛛爬行策略的详细介绍,希望能对大家有用哦,其实从理论上说,无论是广度优先还是深度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 365161286@qq.com 举报,一经查实,本站将立刻删除。

转载请注明来自专注SEO技术,教程,推广 - 小龙seo培训教程,本文标题:《什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?》

发表评论