Question 1

Tệp robots.txt là gì?

Accepted Answer

Tệp robots.txt là một tệp văn bản ở thư mục gốc của trang web của bạn (ví dụ: example.com/robots.txt) cho biết các trình thu thập của công cụ tìm kiếm có thể và không thể truy cập trang nào. Đây là một phần quan trọng của Robots Exclusion Protocol.

Question 2

Robots.txt có ngăn các trang được lập chỉ mục không?

Accepted Answer

Không hẳn. Robots.txt ngăn việc thu thập, chứ không ngăn việc lập chỉ mục. Nếu các trang web khác liên kết đến một trang bị chặn, Google vẫn có thể lập chỉ mục URL đó (hiển thị nó trong kết quả mà không có mô tả). Để ngăn lập chỉ mục, hãy sử dụng thẻ meta noindex thay thế.

Question 3

'Disallow: /' trong robots.txt nghĩa là gì?

Accepted Answer

Disallow: / chặn toàn bộ trang web khỏi việc bị thu thập bởi user-agent được chỉ định. Nếu áp dụng cho tất cả user-agent (User-agent: *), không có trình thu thập nào của công cụ tìm kiếm có thể truy cập bất kỳ trang nào trên trang web của bạn.

Question 4

Cơ chế khớp mẫu của robots.txt hoạt động như thế nào?

Accepted Answer

Robots.txt sử dụng cơ chế khớp mẫu đơn giản. * khớp với bất kỳ chuỗi ký tự nào, và $ neo vào cuối URL. Ví dụ, Disallow: /*.pdf$ chặn tất cả URL kết thúc bằng .pdf. Khi nhiều quy tắc khớp, mẫu cụ thể nhất (dài nhất) sẽ thắng.

Question 5

Tôi có thể chặn các bot cụ thể như GPTBot không?

Accepted Answer

Có. Thêm một phần User-agent: GPTBot với Disallow: / để chặn trình thu thập của OpenAI. Tương tự, bạn có thể nhắm đến Googlebot, Bingbot hoặc bất kỳ trình thu thập cụ thể nào theo tên. Mỗi bot chỉ đọc các quy tắc trong phần của riêng nó (hoặc phần * như phương án dự phòng).

Trình kiểm tra Robots.txt

URL không bị chặn nhưng vẫn chưa được lập chỉ mục?

Câu hỏi thường gặp

Hướng dẫn liên quan

Sẵn sàng để URL của bạn được lập chỉ mục?