작성일: 2012년 10월 31일 수요일

싸이의 강남스타일이 유튜브를 통해 단 몇주만에 전세계인의 음악이 되는 것을 보고 우리가 살고 있는 세상이 얼마나 다양하고 촘촘하게 연결되어 있는지 새삼 실감했습니다. 이렇게 연결된 세상은 숨겨진 한국 문화의 가치를 세계 사람들에게 알려주기도 하지만, 최근 뉴스에서 보셨듯이 자칫 관리를 잘 못할 경우에는 의도하지 않은 개인정보 유출로 이어질 수 있습니다.

이에 구글은 주민등록번호 노출 경고 시스템, 웹 세상의 나, 웹마스터 도구의 웹문서 삭제 도구 등의 서비스를 제공함과 동시에 관련정부기관과 협력하여 올바른 개인정보 가이드를 제공하며 인터넷 관련자들께 안전 교육을 해왔습니다.

구글의 이러한 노력도 중요하지만, 안전한 개인정보 관리를 위해서는 웹사이트를 관리하는 담당자의 안전의식과 적극적인 참여가 필요합니다. 

늘 말씀드렸던 것이지만, 개인정보를 다루는 모든 웹마스터들께 다시 한번 강조드립니다. 우리 주변에서 일어나는 개인정보 유출 사고는 웹사이트 관리의 기본만 지킨다면 많은 경우 예방이 가능합니다.

아래는 그동안 블로그, 컨퍼런스, 개별 교육 등을 통해 안내해드렸던 내용을 핵심 정리해봤습니다. 안전한 개인정보 관리를 위해 꼭 고려할 사항입니다.

개인정보는 암호화하여 관리해야 합니다.
주민등록번호를 데이터베이스의 키로 사용하는 사이트들이나, 사용자의 암호를 암호화하지 않고 평문으로 관리하는 웹사이트들이 아직도 있나요? 개인정보 즉, 주민등록번호, 여권번호, 신용카드 번호, 비밀번호 등은 모두 암호화하여 저장하여야 하고, 공개적인 웹페이지에 노출되지 않도록 해야 합니다.

비공개 문서는 적절한 로그인 절차를 거쳐야만 접근할 수 있도록 해야 합니다.
적절한 로그인 절차 없이 링크(또는 URL)로 접근 가능한 페이지는 전세계 인터넷 사용자에게 공개된 문서입니다. 누구나 볼 수 있는 공개된 문서를 검색 로봇이 수집하여 검색 결과로 제공합니다. 따라서, 비공개 문서는 로그인을 거쳐야만 볼 수 있도록 제한해야 합니다.

클라이언트 JavaScript로 로그인 여부를 체크하면 안 됩니다.
세션 체크라고 부르는 로그인 여부확인은 반드시 서버에서 처리하여야 합니다. 이에 대한 자세한 내용은 “서버의 것은 서버에게"라는 글에 소개하였습니다.

robots.txt를 비롯한 검색로봇 차단은 문제를 더 키울 수 있습니다.
robots.txt는 정상적인 검색엔진들이 신사적으로 지키는 약속일 뿐, 해킹등의 악의적인 목적으로 존재하는 로봇들을 통제하지 못합니다. robots.txt 등을 통하여 정상적인 검색엔진을 막으면 검색엔진이 제공하는 좋은 정보를 이용하지 못하게 되어 악의적인 공격에 노출되어도 쉽게 파악할 수 없게 됩니다.

또한 사용법을 숙지하지 않고 robots.txt를 사용하면 악성 로봇들에게 오히려 중요한 정보에 대한 경로를 제공하게 됩니다. robots.txt는 개인정보보호 또는 보안의 용도가 아니라 정상적인 검색엔진의 불필요한 트래픽을 조절하는 용도로 사용되는 것임을 명심해야 합니다.

로그인, 게시물 작성 등 개인정보식별 정보는 POST방식으로 서버로 전송해야 합니다. 
로그인, 게시물 작성 페이지 등 개인식별이 가능한 정보를 전송하는 웹페이지에서는 POST 방식을 권장합니다. 불필요한 정보가 URL 매개변수 를 통하여 일반 사용자에게 노출 되지 않도록 해야 하겠습니다. 그 외의 페이지들은 GET 방식을 권장합니다.

웹마스터을 위한 무료 도구를 적극 활용하십시오.
구글의 웹마스터 도구 등 검색엔진들이 웹마스터들을 위해 무료로 제공하는 도구에는 웹사이트의 트래픽을 분석하거나, 악성코드 감염 등의 문제를 조기에 알려주며, 어떠한 검색어에 페이지가 보여지는가 등의 사이트 관리에 필수적인 서비스를 제공합니다.

번거로우신가요? 
지금까지 알려드린 내용은 모두 기본적인 사항입니다. 혹시 이런 내용이 귀찮다고 생각하지는 않는지요? 감기나 독감에 걸리지 않으려면 귀찮아도 예방 주사를 맞고 매일 청결하게 유지하는 것이 중요한 것처럼 개인정보 관리도 기본을 지키고 주기적으로 점검을 해줘야 합니다. 감기는 예방을 잘해도 걸릴 수 있지만 개인정보 관리는 기본을 지키면 충분히 예방할 수 있습니다.

또한, 개인정보 유출이 없는 안전한 인터넷 세상을 만들기 위해서는 인터넷 사용자, 서비스 제공자, 정부 등 인터넷 구성원 모두가 함께 노력해야 합니다. 구글도 편리하고 안전한 인터넷을 만들기 위해 함께 노력하겠습니다.

감사합니다. 

작성자: 구글 소프트웨어 엔지니어 이동휘 & 구글 검색 품질 분석가 석인혁 

참고 문서
당신의 소중한 자료는 안녕하십니까?
개인정보가 웹에 게시될 때 알려줍니다, “웹 세상의 나
웹 마스터를 위한 검색 이야기
JavaScript로 로그인 여부 확인을 하지 말아야 할 이유
robots.txt 를 현명하게 이용하는 방법
구글의 웹마스터 도구를 이용하여 검색결과를 삭제하는 방법
주민등록번호 노출 경고 시스템

 

지난 2011월 2월, 구글 영문 사이트(www.google.com) 검색결과를 향상 시키는 중요한 변화인 “판다” 알고리즘 업데이트 이후, 구글은 사용자들이 검색결과에서 더 좋은 품질의 웹페이지를 찾을 수 있도록 하기 위해 꾸준히 노력해 왔습니다. 다양한 변화와 그 변화에 대한 사용자들의 피드백을 통해 검색결과가 향상된 것을 확인할 수 있었고, 마침내 영문 페이지에서의 판다 알고리즘을 전세계 구글 검색 페이지에 업데이트 하기에 이르렀습니다. 이번 업데이트는 사용자에게 큰 가치를 제공하지 못하거나 다른 웹사이트에서 퍼온 컨텐츠, 또는 유용하지 않은 사이트들의 순위를 조정합니다. 동시에 고품질의 사이트, 즉 원본 컨텐츠나 연구자료, 심도 있는 보고서, 통찰력 있는 분석자료 등을 제공하는 사이트의 순위를 향상시킵니다. 

검색결과 개선을 위한 이러한 노력은 점차 확대되어 판다 알고리즘을 보다 많은 언어에 적용할 수 있게 되었고, 드디어 한국어 검색결과에도 업데이트가 이루어지게 되었습니다. 판다 알고리즘은 현재 구글에 들어오는 한국어 검색어 중 약 4.8% 의 검색어에 대해 검색순위에 영향을 줄 것 입니다. 한국어 검색결과의 변화는 영어(12%)와 다른 언어(4~6%) 에 비해 비교적 낮은 수준이지만, 한국어 검색결과에서 더 나은 품질의 콘텐츠가 제공될 수 있도록 구글의 검색이 올바른 방향으로 가는 큰 한걸음이라 할 수 있습니다.

구글은 이번 알고리즘의 업데이트에 영향을 받게될 사이트들에 대한 가이드 라인을 제공하기 위하여 콘텐츠 품질에 영향을 미치는 요인을 소개하고 있습니다. 또한 웹마스터 포럼을 통해 사용자 여러분의 궁금한 점과 새로운 제안들을 받게 될 것입니다. 유용하지 않은 낮은 품질의 사이트 순위는 내려가고 독창적이고 양질의 콘텐츠는 검색결과 상위에 나타날 수 있도록 검색 품질 개선에 대한 구글의 노력은 계속될 것입니다. 

작성자: 구글 검색 품질팀(Search Quality Team) 석인혁

"구글의 검색 결과 품질 개선에 대한 노력은 매일매일 계속됩니다.”

 지난 1월 30일, 구글코리아와 한국인터넷전문가협회가 공동 주관해 한국 웹마스터들을 대상으로 개최했던 2012 웹 마스터 컨퍼런스, 기억 하시지요?

이날 구글의 검색 책임 엔지니어 매트 커츠(Matt Cutts)가 강연을 했었는데요, 현재 매트 커츠는 구글의 웹마스터 도움말 채널(Webmaster Help channel)과 외부의 검색엔진최적화 관련 컨퍼런스를 통해 "검색 전도사" 역할을 하고 있습니다.

컨퍼런스에서 매트 커츠는 "Search Inside" 라는 주제로 검색의 과거와 현재, 미래에 대해 이야기 했습니다. 또한 구글 검색 알고리즘이 어떻게 변화되고 적용되는지를 쉽게 설명했으며, 검색엔진 최적화에 대한 몇 가지 기본적인 팁도 제공했습니다. 또한 한국을 처음으로 방문한 매트 커츠는 본인이 직접 경험한 다양한 한국의 문화와 역사가 인터넷을 매개로 전 세계에 더욱 잘 알려질 수 있기를 바라면서, 현재 검색엔진에 크롤링을 막아놓은 일부 한국 웹사이트들에 대해 사이트 운영 정책 변화를 제안하기도 했습니다.

1월 컨퍼런스를 놓치셨거나 다시한번 강연을 보고자 하는 분들을 위해 매트 커츠의 강연 동영상을 준비했습니다.

   

앞으로 기회가 되는 대로 매트 커츠가 제공하는 검색엔진 최적화에 대한 주요 팁들을 한국어로 번역해 공유하고자 합니다. 구글 검색을 더 잘 이해하고 활용하고자 하는 많은 분들께 도움이 되기를 바랍니다.

작성자: Search Quality Analyst 석인혁



안녕하세요. 구글 소프트웨어 엔지니어 이동휘입니다.

구글에서 주민등록번호 노출을 감지하고 웹마스터에게 조기에 경고하는 주민등록번호 노출 경고 시스템을 시범적으로 운영합니다. 구글 검색 시스템이 주민등록번호 노출이 의심되는 웹페이지를 감지할 경우 구글 웹마스터 도구를 통해 노출된 웹페이지의 웹마스터에게 알림 메시지를 보냅니다. 알림 메시지는 해당 웹사이트의 검증된 웹마스터에게만 보내집니다.


[주민등록번호 노출 알림 메시지 예시]

골칫거리 개인정보 노출 문제
한국 인터넷에서 개인정보 노출 문제는 웹마스터의 가장 큰 골칫거리였습니다. 개인정보 노출 문제는 공개된 정보를 수집하여 쉽게 찾을 수 있게 도와주는 검색엔진에게도 끈질기게 풀리지 않는 숙제였습니다. 전세계에서 수집하는 엄청난 공개 자료속에서 내용을 이해하여 개인정보의 여부를 판단하는 것은 구글에게도 힘든 일입니다. 더 중요한 것은 노출된 정보는 한 검색엔진에서 검색을 막는다고 해서 해결되는 문제가 아닙니다. 전세계에 수 많은 검색엔진이 있고 웹은 태생적으로 모두에게 공개된 공간이므로 노출의 근원을 잡지 않으면 다른 검색 사이트로 흘러가는 것은 시간문제입니다. 또한 어느 웹사이트에 노출되어 있는 개인정보는 전문적인 해커가 아니어도 검색의 도움없이 쉽게 접근할 수 있습니다.

개인정보 노출 문제의 해결책
이에 대한 해결책은 검색엔진과 웹마스터 그리고 사용자들이 협력하여 혹시 있을지 모르는 사고에 미리 대처하는 것입니다. 강력한 컴퓨팅 파워를 가진 검색엔진이 확실하지는 않지만 개인정보로 의심되는 문서들의 목록을 노출된 웹사이트의 웹마스터에게 알려주고 웹마스터는 이를 확인하여 노출이 확실하다면 조기에 조치를 취하면 완벽하지는 않지만 상당부분의 개인정보 노출문제는 해결될 수 있습니다.

앞서 사용자들과의 협력도 언급하였는데, 개인정보 노출 문제는 단순히 웹마스터와 검색엔진만 조심한다고 해결될 문제가 아닙니다. 중요한 개인정보를 소홀히 관리하는 경우가 너무 많습니다. 자신의 주민등록번호로 사용자 계정이나 이메일 주소를 만들어 사용하는 경우, 공개된 게시판에 자기 이름과 주민등록번호를 올리는 경우 그리고 아무 사이트에서나 요구한다고 회원가입시 주민등록번호를 입력하는 습관도 생각해 볼 문제입니다. 검증되지 않은 사이트의 부주의로 노출된 개인정보들이 범죄에 사용되는 경우가 많습니다.

주민등록번호 노출 경고 시스템의 감지 범위
이 시스템은 기계적인 계산으로 주민등록번호로 확인되지는 않았지만 의심스러운 번호패턴을 포함하는 웹페이지를 검출하고 해당 웹마스터에게만 알림을 보냅니다. 감지 시스템의 대상은 구글 검색 로봇이 공개적으로 수집할 수 있는 문서에 한정됩니다. 따라서, robots.txt등으로 구글 검색의 수집을 막은 경우는 문서를 수집하지 않으므로 감지하지 못합니다. 주민등록번호 노출 경고 시스템이 노출을 감지하도록 하려면 robots.txt 등에서 구글 검색 로봇이 해당 웹사이트를 수집할 수 있도록 허용하십시오.

주민등록번호 노출 경고 시스템은 주민등록번호와 유사한 번호 패턴을 감지할 뿐 실제로 주민등록번호가 확실한지 해당 번호의 주인이 누구인지 감지하지 못합니다. 또한, 웹마스터가 문제의 웹페이지를 삭제하거나 수정하면 구글 검색 로봇도 이를 재수집한 후 인덱스에 삭제 혹은 수정합니다.

맺으며...
사람들은 인터넷에서 점점 더 많은 시간을 보내게 될 것입니다. 자연스럽게 더 많은 정보를 공유하게 될 것이구요. 의도하지 않았지만 개인정보가 노출되는 경우도 더 많아지겠지요. 경각심을 가지고 검색엔진, 웹마스터 그리고 사용자가 더 협력하여 안전한 인터넷을 만들기 위해 노력해야 할 것입니다.

구글의 주민등록번호 노출 감지 시스템이 더 안전한 인터넷을 만드는 데 조금이나마 도움이 되기를 바랍니다.

참고 자료


작성자: 구글코리아 소프트웨어엔지니어 이동휘