WordPress博客网站常用Robots.txt规则

说明:咱们偶然候页面有些内容因为某些要素,都要防备被搜索引擎收录,而取缔搜索引擎收录比较简单的法子是在Robots.txt里设置规则,Robots协议(也称为爬虫协议、机子人协议等)的全称是“网络爬虫解除标准”(Robots Exclusion Protocol),站点通过Robots协议告知搜索引擎哪些页面可以抓取,哪些页面不可抓取。这里说下方式。

这里以WordPress博客站点为例,在站点根目录Robots.txt里增加如次规则:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

Disallow: /category/*/page/

Disallow: /tag/*/page/

Disallow: /*/trackback

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /?s=*

Disallow: /*/?s=*\

Disallow: /attachment/

上面分别解说一下各项的功能:

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告知搜索引擎不要抓取后台程叙文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

取缔搜索引擎抓取批评分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

取缔搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

取缔搜索引擎抓取收录trackback等渣滓信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

取缔搜索引擎抓取收录feed链接,feed只用于定阅本站,与搜索引擎无干。

6、Disallow: /?s=*和Disallow: /*/?s=*\

取缔搜索引擎抓取站内搜索成果

7、Disallow: /attachment/

取缔搜索引擎抓取附件页面,譬如毫偶然义的图片附件页面。

上面只是些基本的写法,当然另有许多,但是够用了。当然像Typecho、Emlog,Zblog这些博客就伏笔VPS看着办,方式一样。

希望以上的文章对各位有用,如果觉得不错给我点个喜欢吧!更多和WordPress博客网站常用Robots.txt规则相关的问题或者对虚拟主机有独立ip吗有疑惑也欢迎大家咨询。

推荐阅读更多精彩内容