작성일: 2011년 5월 17일 화요일
작성일: 2011년 5월 17일 화요일


많은 분들께서 웹상의 수많은 정보를 검색을 통해 접하고 유용하게 사용하고 계십니다. 웹상의 정보가 여러 검색엔진을 통해 보여지는 것은 크롤링이 있기 때문에 가능한 것인데요, 크롤러는 웹에서 콘텐츠를 수집하는 기능을 합니다.

여기서 중요한 역할을 하는 분들이 웹마스터인데요, 웹마스터는 크롤러가 유용한 콘텐츠를 수집하도록 해 여러 사람들에게 내 사이트를 알릴 수도 있고, 또는 불필요하거나 민감한 내용은 크롤링하지 못하도록 표시를 해 놓을 수 있습니다. robots.txt라는 것이 바로 크롤링 제어를 위한 실질적인 웹 표준인데요, robots.txt 표준은 구글 보다도 앞서 구축되었으며 정상적인 검색 엔진들은 모두 따르는 공인된 방법입니다. 쉽게 말해 “이 콘텐츠는 검색엔진에서 수집하지 말아주세요”라는 표시이고, 웹마스터께서 이러한 표시를 하는 것은 매우 중요합니다. 이미 많이 아시는 내용이겠지만 구글에서 이전에 포스팅한 ...
작성일: 2011년 4월 7일 목요일

안녕하세요?

많은 분들께서 웹상의 수많은 정보를 검색을 통해 접하고 유용하게 사용하고 계십니다. 웹상의 정보가 여러 검색엔진을 통해 보여지는 것은 크롤링이 있기 때문에 가능한 것인데요, 크롤러는 웹에서 콘텐츠를 수집하는 기능을 합니다.

여기서 중요한 역할을 하는 분들이 웹마스터인데요, 웹마스터는 크롤러가 유용한 콘텐츠를 수집하도록 해 여러 사람들에게 내 사이트를 알릴 수도 있고, 또는 불필요하거나 민감한 내용은 크롤링하지 못하도록 표시를 해 놓을 수 있습니다. robots.txt라는 것이 바로 크롤링 제어를 위한 실질적인 웹 표준인데요, robots.txt 표준은 구글 보다도 앞서 구축되었으며 정상적인 검색 엔진들은 모두 따르는 공인된 방법입니다. 쉽게 말해 “이 콘텐츠는 검색엔진에서 수집하지 말아주세요”라는 표시이고, 웹마스터께서 이러한 표시를 하는 것은 매우 중요합니다. 이미 많이 아시는 내용이겠지만 구글에서 이전에 포스팅한 “robots.txt 현명하게 사용하기”를 참고하시면 어떻게 robots.txt를 사용하실 수 있는지 더 자세한 정보를 얻으실 수 있습니다. 또한 웹마스터 분들을 위해 “크롤링 및 색인 생성 제어 방법”도 다시 한번 올려드립니다. 물론 많이 알고 계시다시피 robots.txt 파일이 사이트 내에 있는 정보를 보호하기 위한 보안의 수단으로 사용되어서는 안되며, 정보를 보호하기 위해서는 사이트 자체의 보안을 강화해야 하는데요, 그 팁은 “웹마스터를 위한 검색 이야기” 시리즈 포스팅의 "당신의 소중한 자료는 안녕하십니까?"편을 참고하시기 바랍니다.

그런데 웹마스터께서 간혹 실수로 이러한 표시를 제대로 하지 못하는 경우가 있습니다. 이런 경우 검색결과에서 정보를 삭제 하는 방법을 많이 문의 하시는데요, 이전에도 이미 공지드린 내용이지만 도움이 되실 것 같아 관련 내용을 다시 한번 공지합니다.

구글 웹마스터 도움말 센터에는 이 외에도 구글 검색과 관련된 도움이 될만한 정보들이 많이 있으니 구글 검색에 궁금한 점이 생기신다면 언제든지 방문해 보다 효율적이고 정확하게 원하는 정보를 찾으시길 바랍니다.

감사합니다.

작성자: 구글코리아 블로그 운영팀

작성일: 2011년 1월 7일 금요일

작성일: 2010년 12월 14일 화요일
오늘은 홈페이지 관리자분들께서 쉽게 저지를 수 있는 한가지 실수에 대해서 이야기를 해보려고 합니다.

가끔씩 홈페이지 관리자분들께서 편의를 위해서나 기타 여러가지 이유들로 개인정보나 중요한 자료들을 특정한 폴더에 저장을 하시고, robots.txt를 이용하셔서 검색엔진이 그 폴더를 방문할 수 없도록 설정을 하시는 것을 보게 됩니다. 구글이나 다음과 같은 검색엔진들은 그 폴더가 robotst.txt로 막혀있기 때문에 접근을 하지 않고, 따라서 검색결과에도 그 폴더안에 있는 내용은 나오지 않게 됩니다. 그러면 홈페이지 관리자분들은 그 폴더 안에 있는 내용들이 안전하다고 간주하시기 쉽습니다.
작성일: 2010년 12월 14일 화요일

사실 불과 10여년만에 인터넷은 우리의 삶에서 뗄래야 뗄 수 없는 존재가 되었습니다. 우리는 매일 인터넷을 통해서 뉴스도 접하고, 쇼핑도 하고, 게임도 즐기고 있습니다. 하지만, 편리함이 주어진만큼 조심해야 할 것들도 생겨났습니다. 쇼핑을 하면서 결제에 사용하였던 신용카드 번호, 인터넷 사이트에 가입하기 위해 입력하였던 주민등록번호, 그리고 나만의 비밀이 적혀있는 일기장들. 이러한 개인정보를 안전하게 보호하는 것은, 아마도 대부분의 홈페이지 관리자와 서버 관리자분들이 가장 많이 신경을 쓰는 부분일것이라고 생각합니다. 제가 관리하는 홈페이지에 저장되어있는 주민등록번호나 신용카드 번호가 유출되는 경우는 정말 생각만해도 끔찍합니다.

오늘은 홈페이지 관리자분들께서 쉽게 저지를 수 있는 한가지 실수에 대해서 이야기를 해보려고 합니다.

가끔씩 홈페이지 관리자분들께서 편의를 위해서나 기타 여러가지 이유들로 개인정보나 중요한 자료들을 특정한 폴더에 저장을 하시고, robots.txt를 이용하셔서 검색엔진이 그 폴더를 방문할 수 없도록 설정을 하시는 것을 보게 됩니다. 구글이나 다음과 같은 검색엔진들은 그 폴더가 robotst.txt로 막혀있기 때문에 접근을 하지 않고, 따라서 검색결과에도 그 폴더안에 있는 내용은 나오지 않게 됩니다. 그러면 홈페이지 관리자분들은 그 폴더 안에 있는 내용들이 안전하다고 간주하시기 쉽습니다.

하지만, 그것은 사실이 아닙니다. 오히려, 더욱 위험해질 수 있습니다. 세상에는 구글이나 다음, 네이버와 같은 착한 검색엔진들이 존재하는 반면, 악한 검색엔진도 존재합니다. 나쁜 검색엔진들의 목적은 신용카드 번호나 주민등록번호등을 찾아내는 것입니다. 예를 들어, 66.90.73.96 의 주소를 사용하는 검색엔진 로봇이 있습니다. 이 로봇은 자신의 정체를 (즉, User Agent를) Google Bot이라고 속이면서 돌아다닙니다. 뿐만 아니라 이 로봇은 홈페이지 관리자분께서 데이터를 보호하기 위해 설정해둔 robots.txt의 Disallow 부터 방문을 합니다! 마치 우리가 집에 소중한 보석을 숨겨두고, “도둑아, 이곳에는 들어오지 마!”라고 한다면, 도둑은 그 장소부터 뒤지는 것처럼 말입니다.
이와 같이 robots.txt를 무시하거나 여러분들의 소중한 자료를 훔쳐보는 나쁜 검색엔진은 몇개나 있을까요? 현재까지 알려져있는 개수만 100개가 넘습니다!

그러면 데이터를 어떻게 보호할 수 있을까요?
1. robots.txt를 데이터를 지키기 위해서 사용하지 마십시오. 주민등록번호 유출등의 사건을 일으키는 나쁜 검색엔진들은 그 파일을 지키지 않습니다. 오히려, 그 파일을 이용하여 소중한 데이터가 저장되어있는 곳의 위치를 알아내려고 합니다. robots.txt 파일은 검색엔진이 여러분의 홈페이지를 더욱 효율적으로 방문할 수 있도록 도와주는 도구이지, 보안의 목적으로는 사용하셔도 실제적인 보안의 효과는 거두시기 힘듭니다.
2. 반드시 로그인을 해야지만 데이터를 접근할 수 있도록 하십시오.
3. 개인 정보와 관련된 데이터를 암호화하여 저장하십시오. 물론, 암호화하여 저장하는 것은 비용이 들어갑니다. 하지만 데이터가 유출되었을 때의 손해 비용을 생각하신다면, 절대로 비싸지 않을 것입니다.

현재까지 알려져있는 나쁜 로봇들에 대해서 궁금하시다면, 여기를 참고하시기 바랍니다.

혹시, 구글 검색 로봇이 여러분의 홈페이지에 너무 자주 방문하여, 서버에 부담이 가기 때문에, robots.txt를 설정하셨습니까? 그렇다면, 구글에서 제공하는 웹마스터 도구를 사용해보시기 바랍니다. 서버의 부담을 줄이면서도, 더욱 효율적으로 여러분의 사이트를 구글 검색결과에 반영시키실 수 있습니다.

* 웹마스터를 위한 검색이야기의 다른 시리즈를 보시려면 여기를 눌러주세요.

작성자: 구글 검색엔진팀 소프트웨어 엔지니어 김영진

작성일: 2010년 11월 16일 화요일

작성일: 2010년 11월 16일 화요일