Question 1

robots.txt 파일이란 무엇인가요?

Accepted Answer

robots.txt 파일은 웹사이트의 루트에 있는 텍스트 파일로(예: example.com/robots.txt), 검색 엔진 크롤러에게 어떤 페이지에 접근할 수 있고 없는지를 알려줍니다. Robots Exclusion Protocol의 핵심 부분입니다.

Question 2

robots.txt가 페이지의 색인을 막아주나요?

Accepted Answer

정확히는 아닙니다. robots.txt는 색인이 아니라 크롤링을 막습니다. 다른 사이트가 차단된 페이지로 링크하면, Google이 여전히 해당 URL을 색인할 수 있습니다(설명 없이 검색 결과에 표시). 색인을 막으려면 대신 noindex 메타 태그를 사용하세요.

Question 3

robots.txt에서 'Disallow: /'는 무엇을 의미하나요?

Accepted Answer

Disallow: /는 지정된 user-agent가 사이트 전체를 크롤링하지 못하도록 차단합니다. 모든 user-agent에 적용되면(User-agent: *), 어떤 검색 엔진 크롤러도 사이트의 어떤 페이지에도 접근할 수 없습니다.

Question 4

robots.txt 패턴 매칭은 어떻게 작동하나요?

Accepted Answer

robots.txt는 간단한 패턴 매칭을 사용합니다. *는 임의의 문자 시퀀스와 일치하고, $는 URL의 끝에 고정됩니다. 예를 들어, Disallow: /*.pdf$는 .pdf로 끝나는 모든 URL을 차단합니다. 여러 규칙이 일치하면, 가장 구체적인(가장 긴) 패턴이 우선합니다.

Question 5

GPTBot 같은 특정 봇을 차단할 수 있나요?

Accepted Answer

네. OpenAI의 크롤러를 차단하려면 User-agent: GPTBot 섹션을 Disallow: /와 함께 추가하세요. 마찬가지로 Googlebot, Bingbot, 또는 이름으로 특정 크롤러를 지정할 수 있습니다. 각 봇은 자신의 섹션에 있는 규칙만 읽습니다(또는 대체로 * 섹션을 읽습니다).

Robots.txt 테스터

URL이 차단되지 않았는데도 여전히 색인되지 않나요?

자주 묻는 질문

관련 가이드

URL을 색인할 준비가 되셨나요?