404页面出现在用户或蜘蛛访问网站不存在url时,一般内容转移或url结构改变时会造成404状态页面。尤其在网站改版时,内容及网站结构的调整很可能造成大量旧的url无法访问,这些无法访问的页面对用户及搜索引擎都是有负面影响的。
百度官方在公告中明确指出:
404页面是网络服务器返回的http状态码表示网页未找到,用户及蜘蛛无法访问,是一种协议死链。这种死链页面需主动推送,使搜索引擎能够更快地发现并做相应处理,减少404死链内容对用户及搜索引擎造成的负面影响。
另外,在百度官方抓取异常说明中也谈到这个问题:
一、什么是死链?
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式。
协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
对于死链,建议通过百度站长平台--死链工具提交死链的方式进行处理,以便搜索引擎更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。
二、抓取异常对网站的影响有哪些?
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
三、及时处理死链可以给站长带来什么?
当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。
优化用户体验:减少死链对网站品牌的损伤和用户的差评度
改善网站排名:减少死链对线上搜索排名的负面影响
增加网站收录:提交死链列表后,增加网站内容的收录几率
提升网站流量:排名和收录改善后,间接提升网站流量
由上述内容可明确看出,404页面确定会对搜索引擎造成负面影响,甚至可能会造成网站的降权!
因而,若网站改版后造成旧url无法访问出现大量404页面时,需要将这些链接通过百度站长工具提交,若量过大无法提交,则需在robots.txt中禁止搜索引擎爬取,这样就可以有效的避免蜘蛛在爬取网站时出现大量404状态码而造成蜘蛛资源的浪费及权重的流失、差的蜘蛛“印象”等一系列降权可能。
根据404页面url结构在robots.txt中进行disallow。如笨鸟博客最近的一次改版将tag页面原有的/post/tag/结构改为/tag/更改了tag页的目录层级及所属以利于网站整体目录清晰便于统计等,由此产生的大量404页面笨鸟在robots.txt中以Disallow:/post/tag/形式禁止抓取。
大量404页面会明显造成蜘蛛资源的浪费,尤其对于中小网站,其负面影响不容忽视!
A5创业网 版权所有