이 페이지에서는 XML 주석 파일을 사용하여 검색엔진의 범위를 정의하는 방법을 설명합니다.
개요
대규모 검색엔진을 구축하고 있다면 대규모 사이트 모음을 관리하는 작업이 번거로울 수 있습니다. 대신 사이트설정 파일에 사이트를 나열하고 업로드하여 많은 사이트를 추가하고 관리할 수 있습니다. 또한 주석 파일을 사용하면 검색결과의 순위를 훨씬 더 세부적으로 제어할 수 있습니다.
주석 파일은 간단히 주석의 목록입니다. 각 주석에는 사이트와 관련 라벨이라는 두 가지 구성요소가 있습니다. 라벨은 프로그래밍 검색 엔진에 사이트를 처리하는 방법, 즉 사이트를 포함, 제외, 승격 또는 강등해야 하는지 여부를 알려줍니다. 컨텍스트 파일에서 라벨을 정의하고, 주석 파일에서 적절한 라벨로 사이트에 태그를 지정합니다.
주석 파일을 수정할 때는 먼저 적은 수의 주석으로 시작합니다. 몇 개의 사이트설정을 사용하면 검색엔진을 손쉽게 테스트하고 문제를 해결할 수 있습니다. 원하는 결과가 나오면 점진적으로 주석을 추가합니다.
제어 패널에 주석 파일을 업로드할 수 있습니다. 파일 한도에 대한 자세한 내용은 주석 한도 섹션을 참조하세요.
프로그래밍 검색 XML 형식 사용
프로그래밍 검색 엔진 구성 파일에서 사용할 수 있는 모든 기능을 활용하려면 XML을 사용하는 것이 좋습니다.
XML 주석
다음은 XML 주석의 예입니다. 이 주석 파일은 프로그래밍 검색 엔진에 www.webmd.com/hw/* 아래의 모든 항목이 포함되고 www.webmd.com/hw/cancer/* 아래의 모든 항목이 제외되도록 지시합니다.
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
주석 파일에는 다음과 같은 계층에 4개의 요소가 있습니다.
-
Annotations
(루트 요소)Annotation
Label
Comment
(선택사항)
외부 주석 만들기
검색엔진에서 포함하려는 사이트 목록을 만들려면 다음 단계를 따르세요.
<Annotations></Annotations>
루트 요소로 파일을 시작합니다.<Annotation></Annotation>
태그를 추가하여 주석을 만든 다음 사이트의 URL 패턴을 사용하여about
속성을 정의합니다.<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
<Label name=" "/>
태그를 사용하여 사이트를 검색엔진과 연결하고 검색엔진에서 사이트를 처리하는 방법을 지정합니다. 검색엔진의 컨텍스트 파일에서 검색엔진의 라벨을 가져올 수 있습니다. 두 개의 라벨이 있습니다. 하나는 프로그래밍 검색 엔진에 사이트를 추가하는 라벨이고 다른 하나는 프로그래밍 검색 엔진에서 사이트를 제외하는 데 대한 라벨입니다. 환경설정 파일에서 검색엔진 라벨 이름을 변경하지 않은 경우 사이트 포함 라벨은_include_
형식이고 사이트 제외 라벨은_exclude_
형식입니다. 오류를 방지하려면 라벨을 직접 입력하는 대신 복사하여 붙여넣으세요.<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
단일 사이트에는 여러 라벨이 연결될 수 있습니다.
컨텍스트 파일에서 라벨 이름을 변경한 경우 주석 파일의
Label name
값을 업데이트해야 합니다.- 사이트를 더 추가하려면 다른
Annotation
요소를 만들고 정의합니다. - XML 파일을 저장합니다.
검색 노출 범위 개선
프로그래밍 검색 엔진은 Google 색인을 기반으로 구축됩니다. 즉, Google 색인에 있는 웹페이지는 검색엔진에서 사용할 수 있습니다. 반대로 Google에서 크롤링하지 않은 웹페이지는 검색결과에 표시되지 않습니다. 프로그래밍 검색 엔진에 현재 Google 색인에 없는 사이트를 포함하려면 Google Search Console에 사이트맵을 제출하세요.
사이트맵에는 사이트의 페이지 목록뿐 아니라 웹페이지의 업데이트 빈도와 각 웹페이지의 중요도에 관한 정보가 포함됩니다. 사이트맵을 제출하면 Google에서 웹페이지를 찾고 크롤링 일정을 개선하는 데 도움이 됩니다. 사이트맵에 대해 자세히 알아보려면 웹마스터 도움말 센터 및 사이트맵 프로토콜 사용을 참조하세요. 더욱 정교한 사이트맵을 만들려면 http://www.sitemaps.org/protocol.php를 참조하세요.
사이트맵이 제출되면 사이트가 다음과 같은 경우에 특히 유용합니다.
- 동적 콘텐츠
- 풍부한 AJAX 또는 Flash 기능이 있는 페이지와 같이 Googlebot (Google의 웹 크롤러)이 쉽게 검색하지 못하는 웹페이지
- 연결된 웹사이트가 거의 없습니다.
Googlebot은 페이지 간에 연결되는 링크를 따라 웹을 크롤링하므로 사이트 링크가 제대로 연결되지 않으면 크롤러가 찾기 어렵습니다. 새로 만든 웹사이트인 경우에는 내 사이트로 연결되는 웹사이트가 많지 않을 수 있습니다.
- 강력한 교차 링크 네트워크가 없는 콘텐츠 페이지의 대규모 자료실
Google은 액세스할 수 있는 페이지만 색인을 생성할 수 있습니다. 따라서 웹페이지에서 robots.txt 파일 또는 robots 메타 태그를 사용하는 경우 이러한 페이지에서 크롤러를 차단하지 않는지 확인하세요.
페이지가 크롤링되고 색인이 생성되는 데 다소 시간이 걸리므로 노출 범위가 즉시 확대되지는 않습니다. 하지만 색인에 포함된 웹페이지가 Google 검색과 프로그래밍 검색 엔진 모두에 표시될 수 있습니다.
주석 한도
다음 표에는 프로그래밍 검색 엔진에 업로드되는 주석 파일의 한도가 나와 있습니다.
참고: 한도를 준수해야 합니다. 한도를 초과하면 검색엔진에 검색결과가 표시되지 않을 수 있습니다.
특성 | 한도 |
---|---|
파일 크기 (컨텍스트 또는 주석 파일) | 30KB |
검색엔진당 최대 사이트설정 수 | 5,000
도움말: 검색엔진의 사이트 수가 한도인 5,000개를 넘으면 개별 URL을 URL 패턴으로 통합하는 것이 좋습니다. |