阳子SEO博客

关于网站爬行问题及解决方案

搜索引擎优化教程:当你面对大型网站可能遇到的成千上万的潜在问题时,你从哪里开始?这是我们在重建网页抓取时试图解决的问题。答案几乎完全取决于你的网站,你可能需要深入了解它的历史和目标,但我想概述一个搜索引擎优化过程,它可以帮助你减少噪音,并开始使用它。简单的操作有时是危险的。为什么?在此之前,我们尝试将网站开头的每个问题都标为高、中、低优先级。这个简单的方法可能有用,但我们发现它是不可能的。你可能会奇怪我们为什么要放弃它。

首先,网站优化元素的优先级取决于你的意图。如果搜索引擎正在搜索网站,误解你的意图可能会导致不好的结果,从混乱到灾难性的结果。例如,我们在moz上雇佣了一个全新的seoer,发现了以下问题:网站上同时有近35,000个noindex标签?如果我们使用搜索引擎优化工具来快速删除这些标签,网站本身将会受到极大的伤害,而不是意识到这些指令大部分是故意的。我们可以让我们的系统更智能,但是他们不理解,所以我们需要对错误警报保持谨慎。

其次,优先问题并不能帮助你理解这些问题的本质或者如何解决它们。我们现在把网页抓取分为四种描述类型:历史数据问题重定向问题元数据问题内容问题分类可以让你获得更多的搜索引擎优化技术。

最终帮助你发现问题只是第一步。我们希望能帮助你更好地解决这个问题。从爬行动物的严重问题出发,这并不意味着一切都是主观的。有些问题会阻止爬虫(不仅是我们的,还有搜索引擎)进入你的页面。我们将这些“关键爬虫问题”分为第一类,目前包括5xx错误、4xx错误和重定向到4xx。如果你突然有一个5xx错误,你需要知道很少有人故意把它重定向到404。在整个网络爬虫界面,你会看到一个突出的严重的爬虫问题:找到红色的报警图标,以快速找到关键问题。

首先,解决这些问题。如果你不能抓取页面,那么所有其他的抓取程序都无法解决,这对搜索引擎优化非常不利。2 .在解决你的技术搜索引擎优化问题时,我们必须平衡问题的严重性和数量。如果我不知道你的网站,我会说404错误可能值得在复制内容之前解决——但是如果你有11页重复的404和17843呢?你的优先事项突然变得完全不同了。我们已经为你做了一些搜索引擎优化数据分析,通过问题的普遍性来提高紧迫性。这需要一些关于优先级的假设,但是如果您的时间有限,我们希望为您提供至少一个快速的起点来解决几个关键问题。

解决多页问题的另一个优点是解决大容量的问题。在许多情况下,您可以一次修复数百甚至数千页。这是一种更具战术性的方式,可以为你节省大量的时间和金钱。

因此,我们可以通过网址过滤解决网络爬行的问题:我可以很快看到这些网页占392页,而我缺乏描述,高达43%。如果我担心这个问题,也许我可以用一个相当简单的内容管理系统页面来解决它,并用几行代码消除数百个问题。在不久的将来,我们希望为你做一些分析,但如果过滤不能做到这一点,你也可以导出任何问题列表到csv。然后,旋转并过滤你心脏的内容。

输入PAge到pa和爬行深度。如果你找不到一个清晰的模式,或者如果你已经解决了一些主要的问题,下一步是什么?如果你知道这些网址很重要,那么一次解决成千上万的问题是值得的。幸运的是,现在您可以在网页抓取中根据页面权限和抓取深度进行排序。PA是我们排名能力的内部指标(主要由链接权重决定),爬行深度是页面和主页之间的距离:在这里,我可以在我们的Mozbar网站上看到重定向链,这是一个非常有特权的页面。这可能是一个值得解决的问题,即使它不是一个明显的、更大的组织的一部分。

cache
Processed in 0.012376 Second.