Nucleus用 robots.txt テンプレ

毎回、正しいかどうかチェックするのがめんどうなのでテンプレ

ファイル名:robots.txt
半角小文字がルール。違うと読まれないらしい。

Sitemap: http://luvsic.net/sitemap.xml

User-agent: *
Disallow: /action.php?*
Disallow: /index.php?*

User-agent: Googlebot
Noindex: /action.php?*
Noindex: /index.php?*

1行目「Sitemap~」は、そのサイトのサイトマップを認識させる。
Sitemaps.org形式のXMLサイトマップ形式であること。

3・4行目「User-agent: *」の部分はすべてのクローラに対して行う指定。
Nucleusの初期ファイルでは「/action.php?*」のみがDisallowとなっている。
URL系(NP_customUrlやfancyurls-2等)の実装時のみ、上記サンプルのように「index.php?*」もDisallowするといい。

6・7行目「User-agent: Googlebot」は、グーグルのクローラにのみ対して行う指定。

  • Disallow・・・アクセスを禁止する
    (他サイトからリンクを張られたりするとインデックスする可能性有)
  • Noindex・・・インデックスを禁止する

Noindexは今日現在、Googleしか対応していない。
よってrobots.txtではUser-agentを個別指定で行う。

robots.txt 番外編

ウェブ魚拓を拒否する

User-agent: Megalodon
Disallow: /

インターネットアーカイブを拒否する

User-agent: ia_archiver
Disallow: /


/
Skooler Records

No comments yet

%3c%69%6e%70%75%74%20%74%79%70%65%3d%22%68%69%64%64%65%6e%22%20%6e%61%6d%65%3d%22%6e%70%5f%70%72%6f%74%65%63%74%62%79%6d%64%35%22%20%76%61%6c%75%65%3d%22%31%64%36%38%34%37%62%36%31%66%66%31%34%61%30%37%31%35%65%34%30%30%32%66%65%61%65%33%65%64%64%63%22%3e %3c%69%6e%70%75%74%20%74%79%70%65%3d%22%68%69%64%64%65%6e%22%20%6e%61%6d%65%3d%22%6e%70%5f%70%72%6f%74%65%63%74%62%79%6d%64%35%5f%68%61%73%68%22%20%76%61%6c%75%65%3d%22%37%35%31%62%33%64%37%63%63%31%34%63%63%32%38%35%36%31%64%61%37%64%34%35%30%35%36%37%30%32%34%34%22%3e
© 2006 – 2014 by Luvsic. Some rights reserved.