阳子SEO博客

如何消除不相关的蜘蛛爬虫干扰高质量的搜索引擎蜘蛛爬行网站?

在搜索引擎优化的过程中,你有没有遇到过这样的问题:服务器访问的CPU利用率接近100%,页面加载速度极慢,似乎受到了DDoS的攻击。

经过审查,我发现原来的目标网站经常被大量不相关的“爬行动物”带走,这对一个小网站来说可能是一场灾难。

因此,在优化网站时,我们需要有选择地引导特定的蜘蛛。

根据以往的搜索引擎优化经验分享,边肖将阐述以下几点:

首先,搜索引擎爬虫

对于国内的合作伙伴,我们都知道在SEO的过程中,我们面对的最常见的爬虫是搜索引擎的爬虫,比如百度蜘蛛和各种搜索引擎的蜘蛛,比如:

360皮德、搜狗皮德、字节皮德

谷歌机器人、必应机器人、思乐普、特奥马、iauarchiver、twiceler、MSNBot

其他爬行动物

从理论上讲,如果robots.txt文件不是有意配置的,目标页面可以被抓取。然而,对于一些中小型网站,它偶尔会浪费自己的服务器资源。

此时,我们需要给予有选择性的、合理的指导,尤其是一些尴尬的问题,比如:你希望谷歌减少在网站上的爬行,但你不能完全屏蔽它。您可能需要一些提示,例如:对于特定的爬行访问,反馈不同的文章列表:

控制和更新频率表

(2)反馈重复性,内容场页面

善意的“蜘蛛陷阱”,如闪光灯

4如何调整彼此的搜索引擎优化管理平台,获得意见并做出适当的调整

虽然这种策略可能会损害页面的声誉,但我可以想出一个相对“有效”的方法来合理地控制蜘蛛的爬行,这些蜘蛛不想频繁爬行,但需要不断爬行。

二、链接分析爬虫

目前,一个搜索引擎优化外部链分析和管理工具每天需要花费大量的服务器资源来抓取和检测每个网站的页面链接。

对于一些资源密集型网站来说,一天可能要爬行数千次,这是非常常见的。

如果你不想你的网站被牵扯进来,最简单的策略是完全关闭机器人协议中的这种爬虫。

第三,内容收集爬虫

但是当我们面对一些恶意的内容收集爬虫时,我们相对尴尬。另一方经常采取“看不见”的状态,比如模仿著名搜索引擎蜘蛛的名字。

要解决这个问题,我们只能用手来判断庐山的真伪,例如,用IPpan解析命令来判断真伪。

Linux平台:主机IP

视窗平台:nslookupip

从而确定对方的解析地址是否是对应的搜索引擎域名。

第四,蜘蛛池爬行动物

目前,市场上有很多人做百度蜘蛛池,其主要目的是帮助更多的网页做百度的快速收录。但是,随意下载蜘蛛池的程序设计并不规范。

由于缺乏合理的爬行和对不同蜘蛛的限制,服务器资源经常被服务提供商占用,这很容易被关闭。

no cache
Processed in 0.401012 Second.