Question 1

robots.txtファイルとは？

Accepted Answer

robots.txtファイルは、Webサイトのルート（例：example.com/robots.txt）にあるテキストファイルで、検索エンジンのクローラーがどのページにアクセスできて、どのページにアクセスできないかを伝えます。Robots Exclusion Protocolの中心的な仕組みです。

Question 2

robots.txtはページのインデックスを防げますか？

Accepted Answer

厳密には防げません。robots.txtはクロールを防ぐもので、インデックスを防ぐものではありません。他のサイトからブロック対象ページにリンクが張られていると、GoogleがそのページのURLを（説明なしで）インデックスする可能性があります。インデックスを防ぐにはnoindexメタタグを使ってください。

Question 3

robots.txtの「Disallow: /」はどういう意味ですか？

Accepted Answer

Disallow: / は、指定したユーザーエージェントによるサイト全体のクロールをブロックします。すべてのユーザーエージェント（User-agent: *）に適用すると、どの検索エンジンクローラーもサイト上のどのページにもアクセスできなくなります。

Question 4

robots.txtのパターンマッチングはどう動きますか？

Accepted Answer

robots.txtは単純なパターンマッチングを使います。* は任意の文字列にマッチし、$ はURLの末尾を表します。たとえば Disallow: /*.pdf$ は .pdf で終わるすべてのURLをブロックします。複数のルールにマッチする場合、もっとも具体的（長い）パターンが優先されます。

Question 5

GPTBotのような特定のボットをブロックできますか？

Accepted Answer

はい。User-agent: GPTBotセクションを追加し、Disallow: / と書くと、OpenAIのクローラーをブロックできます。同様に、Googlebot、Bingbot、その他特定のクローラーを名前で対象にできます。各ボットは自身のセクション（または * セクションをフォールバック）のルールだけを読み取ります。

Robots.txtテスター

URLはブロックされていないのに、まだインデックスされていませんか？

よくある質問

関連ガイド

URLをインデックス登録する準備はできましたか？