인터넷 검색엔진 배제표준의 핵심은 robots.txt로 불리는 단순한 텍스트 파일인데, 이는 웹 퍼블리셔가 여러 단계를 통해 검색엔진의 접근을 통제하도록 합니다. 이러한 단계는 전체 웹사이트에서 개별 디렉터리, 특정 유형 페이지 또는 각 페이지 단위에 존재합니다. robots.txt 파일 말고도, robots 메타 태크가 존재하는데 이를 통해 개별 페이지 또는 웹사이트에 대한 정확한 통제가 가능합니다.
웹마스터는 이러한 다양한 기술적 표준을 이용해 구글이나 다른 검색엔진이 해당 사이트를 크롤하고 인덱스 하도록 손쉽게 허용할 수 있는 것입니다. 예를 들어, 어느 온라인 신문 사이트는 구글 검색 결과에 자신의 내용이 나오는 것은 좋지만 이미지는 구글 이미지 검색에 포함되지 않게 해달라고 구글에 “전달”할 수 있습니다.
사이트맵사이트맵은 구글과 다른 주요 검색엔진이 웹마스터를 돕기 위해 지원하는 일종의 프로토콜입니다. 사이트맵은 기존 웹 크롤링 메커니즘을 보완하고, 웹마스터는 이들 사이트의 각 페이지를 검색엔진에 소개하는데 이용할 수 있습니다. 이를 통해 웹마스터는 검색엔진의 크롤링에 대한 통제권과 검색결과에서 자신들의 페이지가 보이도록 하는 가시성을 더욱 높일 수 있습니다.
웹마스터는 사이트맵을 이용해 자신들의 사이트가 현재 구글 인덱스에 포함되는지와 구글이 사이트를 크롤링해서 콘텐츠가 검색 결과에 나오지 못하도록 막는 에러를 가졌는지 여부를 파악할 수 있습니다. 이러한 툴을 이용하면 웹마스터는 자신의 URL을 구글 인덱스에 수동으로 추가할 수도 있습니다. 또는 구글에 사이트맵을 제공해 자신들의 콘텐츠가 더욱 잘 이해되도록 할 수도 있습니다. 그리고 구글과 다른 검색엔진이 어떤 방식으로 인덱스를 해야 할지 자신이 선호하는 방식을 결정할 수 있습니다.
옵트 아웃 vs. 옵트 인혹자는 구글과 같은 검색엔진이 콘텐츠 소유주에게 옵트인(opt-in)을 요청해야지, 콘텐츠 소유주에게 옵트아웃(opt out)을 해서는 안 된다고 주장합니다. 그러나 한 발 뒤로 물러서 생각해 보면 이와 같은 시나리오는 비현실적이라는 것을 쉽게 이해할 수 있습니다.
옵트인은 각 웹사이트 소유주가 각각의 검색 엔진에 연락해 자신들의 모든 페이지에 대해 설명해 줘야 한다는 것을 뜻합니다. 또한 시스템의 남용을 막기 위해 검색엔진은 그 같은 요구를 제출하는 개인의 권한을 검증해야 합니다. 간단히 말해 이러한 과정은 불가능 그 자체입니다.
더욱이 구글과 다른 검색엔진은 종합적인 검색 결과 서비스를 제공하는 것을 목표로 합니다. 만일 수십억 개의 웹 페이지를 단순히 인덱싱하는데 일일이 허락을 얻어야 한다면, 이러한 서비스 제공은 불가능할 것입니다. 옵트인을 적용시킨다면 그 결과는 언급할 필요도 없습니다. 새로운 검색엔진이 나왔다면 서비스를 시작도 하기 전에 문을 닫아야 할지 모릅니다. 검색엔진의 시스템 지원에 필요한 자원을 공급할 수 없기 때문입니다.
결국 콘텐츠가 인덱스되지 않는다면 검색이 될 수 없습니다. 검색될 수 없다면 어떻게 정보를 찾을 수 있을까요? 이는 마치 도서관에 책들이 제목이나 주제없이 무작위로 배치된 것과 같은 모습일 것입니다.
작성자: 구글코리아 블로그 운영팀