Robots.txtテスター
URLがrobots.txtでブロックされているか確認します。ファイルを貼り付けてURLパスを入力すれば、Googlebot、Bingbot、GPTBotのアクセス可否をチェックできます。
このツールはブラウザ内で完結します。サーバーにデータは送信されません。
robots.txtの場所: yourdomain.com/robots.txt
URLはブロックされていないのに、まだインデックスされていませんか?
robots.txtがページをブロックしていないにもかかわらず、Googleがまだインデックスしていない場合は、IndexBoltを使えば数時間でクロールしてもらえます。
よくある質問
robots.txtファイルとは?+
robots.txtファイルは、Webサイトのルート(例:example.com/robots.txt)にあるテキストファイルで、検索エンジンのクローラーがどのページにアクセスできて、どのページにアクセスできないかを伝えます。Robots Exclusion Protocolの中心的な仕組みです。
robots.txtはページのインデックスを防げますか?+
厳密には防げません。robots.txtはクロールを防ぐもので、インデックスを防ぐものではありません。他のサイトからブロック対象ページにリンクが張られていると、GoogleがそのページのURLを(説明なしで)インデックスする可能性があります。インデックスを防ぐにはnoindexメタタグを使ってください。
robots.txtの「Disallow: /」はどういう意味ですか?+
Disallow: / は、指定したユーザーエージェントによるサイト全体のクロールをブロックします。すべてのユーザーエージェント(User-agent: *)に適用すると、どの検索エンジンクローラーもサイト上のどのページにもアクセスできなくなります。
robots.txtのパターンマッチングはどう動きますか?+
robots.txtは単純なパターンマッチングを使います。* は任意の文字列にマッチし、$ はURLの末尾を表します。たとえば Disallow: /*.pdf$ は .pdf で終わるすべてのURLをブロックします。複数のルールにマッチする場合、もっとも具体的(長い)パターンが優先されます。
GPTBotのような特定のボットをブロックできますか?+
はい。User-agent: GPTBotセクションを追加し、Disallow: / と書くと、OpenAIのクローラーをブロックできます。同様に、Googlebot、Bingbot、その他特定のクローラーを名前で対象にできます。各ボットは自身のセクション(または * セクションをフォールバック)のルールだけを読み取ります。