为WordPress设置robots.txt

最近将博客从PJBlog转移到WordPress,因此对专门学习了WordPress中怎样设置robots.txt。网站的robots.txt文件的很重要,它可以让如Google、百度等搜索引擎有针对性的抓取网页。

什么是robots.txt?它是搜索引擎的蜘蛛在来到网站首先要查看的一个文件。因为网站的有些内容禁止被搜索引擎抓取,比如网站的模板文件、CSS文件、Javascript文件、登陆页面等等、这时候就要设置一些robots.txt文件来使引擎蜘蛛遵循这一些协议。

robots.txt文件的存放位置在网站的根目录下。默认没有设置,Wordpress会生成一个动态的robots.txt文件。查看一个网站的robots.txt文件方法也很简单,只要在地址栏输入以下路径: 你的域名/robots.txt。注意文件名一定要全部小写。下面是我的博客中的robots.txt文件。

User-agent: *
Disallow: /wp-*
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /page/
Disallow: /page/*
Disallow: /*/*/page/
Disallow: /page/1$
Disallow: /?s=
Disallow: /tag/
Disallow: /comments
Disallow: /*?replytocom=
Disallow: /date/
Disallow: /feed
Disallow: /*/*/feed
Disallow: /trackback/
Disallow: /*/*/trackback
Disallow: /*.php$
Disallow: /*.css$
Disallow: /robots.txt
Disallow:/services/
Disallow:/ZendFramework/
Sitemap: http://www.riafan.com/sitemap.xml
Sitemap: http://www.riafan.com/sitemap.xml.gz

以上仅供大家参考,不同的网站还有具体的考虑。有的出于网站安全、隐私的考虑要隐藏一些文件。有的则是注重SEO,通过robots.txt提高有效页面的收录,降低重复,相似页面的收录。建议大家可以试一试Google网站管理员工具来检验网站的robots.txt是否健康。

发表评论