边肖今天想分享的是文件优化。做网站优化的人应该知道Robots.txt,通过它我们可以直接和搜索引擎蜘蛛交谈,告诉他们什么可以被爬行,什么不能被爬行。这与我们今天将要讨论的文件优化有关。一、站内优化
机器人txt用法的详细说明和机器人txt问题的总结
为什么要设置机器人?
在进行搜索引擎优化操作时,我们需要告诉搜索引擎哪些页面重要,哪些页面不重要,让蜘蛛爬行重要的页面,屏蔽不重要的页面以减轻网站服务器的负担。
一些常见问题和知识点
当蜘蛛找到一个网站时,它会抓取该网站的机器人文件。
建议所有的网站都应该设置机器人。如果你认为网站上的所有内容都很重要,你可以创建一个空的robots.txt文件。
在robots.txt文件中设置网站地图
您可以在robots.txt中添加网站地图,并告诉蜘蛛地图的位置。
机器人的命令
在spider协议中,不允许和允许是顺序的,这是一个非常重要的问题。如果设置错误,可能会导致爬网错误。
引擎蜘蛛程序将根据允许或不允许行的成功匹配来决定是否访问一个网址。一个例子可以让你更清楚地理解:
user-agent : * 2 . allow :/seojc/BBS 3 . disallow 3360/seojc/在这种情况下,spider /seojc/bbs目录可以正常爬网,但是/seojc/目录中的文件不能爬网。这样,蜘蛛就可以访问特定目录中的一些网址。
让我们交换位置并观察。
用户代理: * 2 .不允许3360/根目录下的文件夹/3。Allow :/seojc/bbs/seojc/directory出现在该行中,并且禁止对目录下的所有文件进行爬网,因此第二行中的allow无效,因为seojc目录下的所有文件在该行中都已被禁止,而BBS目录正好在seowhy目录下。因此,匹配不成功。
机器人的路径问题
在spider协议中,允许和不允许后面可以跟有两种路径形式,即链路和相对链路。链接是完整的网址形式,而相对链接只是根目录。这是要记住的。
斜线问题
Disallow:/seojc意味着禁止对seoic目录中的所有文件进行爬网,如:seojc.1.html、seojc/rmjc . PHP;
Disallow:/seojc/表示禁止对seojc目录中的文件进行爬网,也就是说,允许对seojc.1.html进行爬网,但不允许对seojc/rmjc.php进行爬网