此文为站长技术学习笔记,不喜欢的可以跳过。
前天刚写了一篇网站收录上升,流量大增云云的文章,没曾想,今天百度收录大抽疯,“队室”网站排名全无,收录由原先的500多篇锐减到175篇。

队室网站百度收录图示
虽然大部分的原创文章还在,但更可气的是,好好的文章不收录,对一些毫无意义的feed栏目的单页面评论却收录了不少。(这不是抽疯,还是什么?)

无意义的评论页面
还好,之前有学过屏蔽收录的方法,就是要用到robots.txt。
robots.txt是搜索引擎的蜘蛛在来到网站首先要查看的一个文件,由于网站有些内容是不想被搜索引擎抓取的,比如网站的模板文件,css文件,JS文件,管理界面等等,这时候就要设置一些robots.txt文件来使蜘蛛遵循这一些协议。
参考了一下网络技术文章,作如下笔记,以备忘!
robots.txt的写作方法及注意事项:
1.robots.txt必须上传到你的网站根名录下,在子目录下无效;
2.robots.txt,Disallow等必须注意大小写,不能变化;
3.User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。
4.User-agent表示搜索引擎开放目录:星号*代表对所以的搜索引擎采用下面的规则,Google的spider是Googlebot,百度是Baiduspider;
5.Disallow:表示不允许搜索引擎访问和索引的目录;
6.Allow:指明允许搜索引擎访问和索引的目录。
robots.txt在wordpress博客中的具体用法:
1.阻止搜索引擎收录wordpress博客评论及评论分页,您只需要在robots.txt文件中加入下面的语句即可:
Disallow: /comments 限制抓取评论
Disallow: /*?replytocom= 限制抓取每一个评论页面
上面的两行代码即可阻止搜索引擎收录您博客的评论及评论分页内容了!(需要区分url是动态链接还是静态链接,队室网站注)
2.阻止搜索引擎收录wordpress博客的feed订阅页面,防止出现搜索引擎索引中出现重复页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。(这也就是队室网站现在出现的问题)
Disallow: /feed 限制抓取feed内容
Disallow: /*/*/feed 限制抓取文章分类和单独文章文章页面的feed
经过修改,现在队室网站的robots.txt文件是这样写的:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?
Disallow: /feed
Disallow: /*/feed/
Disallow:/*/*/feed/
同样需要提醒是的要将robots.txt文件传到网站的根目录,wordpress博客可能不会生效,可以下载安装KB.robots.txt的插件辅助设置。
虽然只是一个个人博客,不靠这个工作或是吃饭,还是希望能早点恢复正常收录,就这样吧!
文章末尾固定信息

