爬虫访问sitemap提取的URL数,效果不明显

作者:外链秒收录平台      来源:原创      时间:2020-12-27 01:26:01      点击:

如何快速收录百度新建的站点,是很多SEOer在网站刚上线时最关注的问题。而且收录速度已经成为领导经常问的事情,那么如何利用百度链接提交工具快速收录我们的新站呢?

在介绍链接提交工具之前,首先要做的是在百度站长平台验证新站点。验证成功后才能使用百度站长平台的链接提交工具等更多工具。验证新站点的基本过程如下:

1.登录百度站长平台后,选择左侧“我的网站”栏下的“网站管理”选项,然后点击右侧的“添加网站”,如下图:

2.这时候跳转到添加网站的链接,分两步。一种是输入你新站的域名,然后验证网站,如下:

上图,需要说明的重点。比如红框里的字,最好是验证我们的主域名(比如www.mfyp33.com),那么以后添加二级域名的时候,可以直接选择子链添加,不用验证网站。此外,如果主域名是一个vip站点,子域名也将继承主域名的vip权限。否则会单独验证,不具备继承vip权限的能力。输入主域名后,我们直接点击下一步,选择我们验证网站的方式(文件验证、HTML标签验证、CNAME验证),按照说明部署到我们的网站,点击验证按钮。

网站通过验证后,我们可以使用链接提交工具。目前,链接提交工具分为自动提交和手动提交两部分。手工提交,顾名思义,比较简单,就不多解释了。自动提交分为三种方式:站点地图、主动推送和自动推送。都是自动把站点的URL推给百度,然后等待百度爬虫抓取页面。最终目的是一样的。

站点地图提交:配置站点地图文件时,无论是txt格式的文本文档还是xml格式的文件。不建议将其站点地图的名称命名为sitemap.txt或sitemap.xml,这样的名字太流行了,谁都知道。如果你这样设置,你的竞争对手或者需要你网站内容的人就可以很容易的得到你所有的页面URL。为了安全起见,使用一些自己定义的复杂文件名。每个网址必须包含http://,一个文件中包含的网址数量不得超过50,000个,单个文件的大小不得超过10MB。一个站点最多可以提交50000个站点地图文件,如果超过50000个就不处理了,会提示“链接数超过”。如果是以子域形式认证的站点。那么主域名下的站点地图文件可以包含该域名下所有域名的URL。

主动推送:与sitemap相比,及时推送、查找、抓取更快。如果是时间敏感的文章,不排除其收录速度的效率。这里特别推荐,最好在第一时间为百度主动推送我们网站生成的新内容,效果更好;主动推送受推送次数限制,尽量不要将重复内容推送至百度。这会极大地浪费你的可推送资源。

自动推送:我们为每个网页部署一个js代码。当一个用户访问时,这个代码被触发,这个代码自动将当前页面的url推送到百度。需要注意的是,这个代码既可以用于PC站,也可以用于移动站。是一款非常及时方便的轻量级链接推送工具。

6月22日,智联招聘新网站。该网站实际上是在21日推出的。但由于在线调试,机器人在21日禁止所有爬行动物爬行。但由于网站早在建设的时候就添加了自动推送的代码,然后在21日上线,在爬虫发布之前,百度爬虫就已经进行了抓取,并收录了首页。如下图(网站负责同事保留截图):

所以如你所见,由于安装了自动推送,只要网站被访问,就会立即推送至百度,爬虫第一时间抓取,然后迅速收录。这是高效的。还能是谁?

这只是第一天的第21天,然后22号我们又会主动推送配置。那么效果可以在百度站长工具的抓取频率中看到,如下图:

这是新站上线后的第二天,主动推送配置后的第二天,我们用主动推送的方式推送了一次事先准备好的内容页面和列表页面。然后上图显示了它明显的效果。当然,后续抓取的下降也和我们每天发布的文章数量直接相关。6月28日,网站地图再次提交,当天的抓取在上图末尾又上去了。下图是爬虫访问sitemap提取的URL数,效果不明显!

当然,为什么要三者并用呢?先说一下Sitemap,主动推送和自动推送的区别:

Sitemap是一个可以容纳大量历史数据的容器。它包含了我们网站的所有网址。个人感觉快速抓取并不完全依靠sitemap的提交方式,但是对于已经产生的文章,现有的列表页面,标签标签页面等是最好的选择。当我们的页面发生变化时,主动推送不一定会再次推送,因为毕竟主动推送对新生成页面的及时推送承担的更多,最重要的是推送的最大次数是有限制的;先说自动推送。如果您修改历史页面,它将不会被访问。那么它根本不会触发js代码的自动推送,当然也不会推给百度。因此,从根本上说,站点地图是生成文章页面、现有列表页面和标签标签页面的最大助推工具。

主动推送,虽然推送次数有限制,但是推送后的抓取速度已经被智联招聘新站的例子很好的解释了。所以主动推送要承担及时推送新生成URL的角色。

自动推送,当页面被访问时,就会被推送。那么被访问的和不被访问的就是热点页面或者冷门页面的概念。冷门页面不被访问。当不受欢迎的页面生成时,我们有网站地图和自动推送。但是对于热门页面,用户喜欢的页面。对搜索引擎的需求也会很大。这样的页面是我们获取流量的重要页面。如果不包含它们,除了站点地图和主动推送之外,还可以通过自动推送更频繁地推送它们。它被捕获或包含的可能性有多大?而且与sitemap和主动推送实现相比,成本更低,可以通过添加代码来完成。为什么不可以?

所以,还是综合以上案例和三者的区别比较好。强烈建议您安装它的三个自动推送工具,并让它们一起工作,以最大限度地提高捕获和记录的价值。



上一篇:影响网站收录进度的原因有哪些 | 下一篇:

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="http://www.mfyp33.com/" target="_blank">外链秒收录平台</a>