속도 제한에 403 또는 404를 사용하지 마세요.

2023년 2월 17일 금요일

지난 몇 달 동안 404 및 기타 4xx 클라이언트 오류(429 아님)를 사용하여 Googlebot의 크롤링 속도를 줄이려고 시도하는 웹사이트 소유자와 일부 콘텐츠 전송 네트워크(CDN)가 증가했습니다.

이 블로그 게시물을 요약하자면 이런 방법은 사용하지 마시고 Googlebot의 크롤링 속도를 줄이는 방법에 관한 문서를 참고하세요. 이 문서를 참고하여 Googlebot의 크롤링 속도를 효과적으로 관리하는 방법을 알아보세요.

기본사항: 4xx 오류는 클라이언트 오류입니다.

서버가 클라이언트에 4xx 오류를 반환한다면 클라이언트의 요청이 어떤 의미에서 잘못되었다는 신호입니다. 이 카테고리에 해당하는 오류는 대부분 무해합니다. 예를 들면 '찾을 수 없음' 오류, '금지됨', '찻주전자'(간혹 이런 오류가 발생함) 등이 있습니다. 이러한 오류는 서버 자체에 문제가 있다는 것을 의미하지 않습니다.

한 가지 예외는 '요청이 너무 많음'을 의미하는 429입니다. 이 오류는 Google이 사랑하는 Googlebot을 비롯하여 잘 작동하는 모든 로봇에 서버 과부하로 인해 속도를 줄여야 한다고 알리는 명확한 신호입니다.

4xx 오류가 Googlebot의 속도 제한에 좋지 않은 이유(429 제외)

클라이언트 오류는 말 그대로 클라이언트 오류입니다. 이 오류는 일반적으로 서버 오류가 아닙니다. 서버에 과부하가 걸렸거나 서버에 심각한 오류가 발생하여 요청에 응답할 수 없는 것이 아닙니다. 단지 클라이언트 요청이 어떤 식으로든 잘못되었음을 의미합니다. 예를 들어 404 오류를 과부화가 걸린 서버와 동일시할 수 있는 합리적인 방법은 없습니다. 친구가 실수로 사이트의 잘못된 페이지를 연결하여 404 오류가 유입되어 Googlebot의 크롤링 속도가 느려지는 경우를 가정해 보세요. 꽤 나쁜 상황입니다. 403, 410, 418도 마찬가지입니다.

이번에도 예외는 '요청이 너무 많음'을 의미하는 429 상태 코드입니다.

4xx를 사용한 속도 제한은 Googlebot에 어떤 역할을 하나요?

모든 4xx HTTP 상태 코드(429 제외)로 인해 콘텐츠가 Google 검색에서 삭제됩니다. 게다가 4xx HTTP 상태 코드가 있는 robots.txt 파일을 게시하면 해당 파일이 존재하지 않는 것처럼 처리됩니다. 불필요한 사항을 크롤링하는 것을 허용하지 않는 규칙이 있다면 Googlebot도 이 규칙에 관해 알게 되므로 관련 당사자 모두에게 좋지 않습니다.

Googlebot의 크롤링 속도를 줄이는 방법

Googlebot의 크롤링 속도를 줄이는 방법Googlebot(및 Google 검색 색인 생성)에서 다양한 HTTP 상태 코드를 처리하는 방법에 관한 광범위한 문서를 확인하세요. 즉, 다음 중 하나를 수행하는 것이 좋습니다.

추가 도움말이나 설명이 필요하면 Twitter를 방문하거나 도움말 포럼에 게시물을 올려 주세요.