苏笛康：实测搜狐微博是否屏蔽百度蜘蛛

时间：2011-06-10

事件：

只要了解SEO的朋友都知道最近利用搜狐微博抢夺百度长尾词流量的事情。由于各种原因，苏笛康并未搀和进这件事。2011年6月9日，苏笛康所在的团队QQ群突然转发一个消息，称搜狐微博屏蔽百度蜘蛛了，并提供了一个Admin5论坛的帖子的URL。经过分析，苏笛康认为，搜狐微博并未屏蔽百度蜘蛛，上述言论是对搜狐微博的Robots.txt文件误读引起的。

材料：

搜狐微博Robots.txt文件内容(2011年6月9日晚)：

User-agent: Baiduspider

Disallow:

User-agent: Sogou

Allow: /

User-agent: *

Disallow: /

分析：

首先，我们看搜狐微博Robots.txt第一部分，针对的是百度蜘蛛。

在百度搜索帮助中心的指南()可以找到这么一句——“Disallow:”说明允许robot访问该网站的所有URL。

因此，第一部分的语句，允许百度蜘蛛抓取所有的URL。

第二部分就不用看了，界定的是搜狗搜索引擎的蜘蛛抓取权限。

最后我们看第三部分，这部分使用通配符，限定所有的搜索引擎，不允许抓取根目录(相当于不允许抓取任何URL)。这里我们仍然需要关注百度搜索帮助中心的解释。百度官方的文件是这样说的——需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。所以，第三部分的禁止指令，对百度蜘蛛而言，是无效的。百度蜘蛛根据第一部分的要求，可以抓取所有URL。

实测：

空口无凭，我们可以实际测试一下。已知百度和Google对待Robots.txt文件的处理方式是一样的，故而我们可以使用谷歌网站管理员工具中的“抓取工具的权限”功能来测试一下。

由于谷歌网站管理员工具只能测试已经验证所有权的网站，我这里用自己的博客来测试。

首先在测试用的Robots.txt中填写如下信息：

User-agent: Googlebot

Disallow:

User-agent: Sogou

Allow: /

User-agent: *

Disallow: /

(注意，受测试环境影响，使用Googlebot代替百度蜘蛛，不过这不影响测试结果)

然后用谷歌网站管理员工具测试Googlebot抓取首页()的结果，反馈如下：

第 2 行 Disallow: 允许访问此网址

检测为目录;具体文件可能有不同限制

实测证明，搜狐微博的Robots.txt没有屏蔽百度蜘蛛。

经验：

从事SEO工作，要重视两个东西：第一，搜索引擎官方的公开文档，尤其是百度和Google的正式资料，这些资料会透露很多搜索引擎对网页的处理方法;第二，要重视谷歌提供的各种工具，尤其是网站管理员工具，可以通过这些工具进行各种测试。

本文作者：网络营销分析师苏笛康，国内第一批通过中国电子商务协会认证SEO工程师。个人博客： (邮件订阅该博客赠送微博营销电子书)。

苏笛康：实测搜狐微博是否屏蔽百度蜘蛛

相关文章