작성일: 2008년 5월 30일 금요일
서치 퀄러티(Search Quality)는 구글 검색결과의 순위를 책임지고 있는 팀의 이름입니다. 저희가 하는 일은 구글을 통해 하루에 검색되는 수 억개의 질문들에 대해, 1초도 안되는 시간에 수십억 개의 웹페이지 중 어떤 페이지를 어떤 순서로 보여줄 것인가를 결정하는 것입니다.수많은 사람들이 구글을 이용하지만, 검색 결과 순위가 어떻게 매겨지는지에 대해 알려진 바는 놀라울 정도로 없는 편입니다. 이는 전적으로 저희 책임이지만 사실은 고의적인 것입니다. 솔직히 말씀 드리면, 저희 스스로 업무를 비밀에 붙이고 있습니다. 여기에는 ‘경쟁력’과 ‘남용방지’ 라는 두 가지 이유가 있습니다. 경쟁력에 관해서는 굳이 부가 설명이 필요없을 듯 합니다. 자사의 기술력을 경쟁사와 공유하려는 회사는 없기 때문이지요. 남용방지는 구글의 랭킹 공식을 누구나 쉽게 알 수 있을 경우 발생할 수 있는 문제 즉, 사람들이 쉽게 속임수를 쓰는 것을 막기 위한 것입니다. 모호성을 이용한 보안은 가장 강력한 수단도 아니고 전적으로 의존할 수 있는 것은 아니지만 위와 같은 남용을 막는 데 크게 기여할 수 있습니다.
랭킹 알고리즘 기술은 여러 측면에서 볼 때 구글의 보석과도 같은 존재입니다. 저희는 이를 매우 자랑스럽게 여기며, 또 이를 보호하기 위해 최선을 다하고 있습니다. 한 명의 프로그래머 혹은 과학자가 이 일을 전담했다고 가정해 봤을 때 천 년 이상이 소요될 시간과 노력이 이 알고리즘 개발에 직접 투입됐습니다. 또한 지금까지 개선을 위한 혁신의 노력을 게을리 하고 있지 않습니다.
그러나 비밀유지를 고집하는 것만이 이상적인 것은 아닙니다. 이 블로그를 통해 여러분들과 과거보다 좀더 많은 정보를 공유하고자 합니다. 정기적으로 새로운 소식을 전해 드리는 것과 더불어, 잘 알고 있지 못한 기존의 스토리에 대해 설명해 드릴 것입니다. 또한 관련하여 조언을 드리며, 뉴스를 전달하고 함께 대화에 참여하도록 노력하겠습니다. 우선 저희 팀에 관한 전반적인 설명을 드리도록 하겠습니다. 이후 보다 많은 내용들이 블로그를 통해 전달될 것 입니다.
먼저 제 소개를 드리자면, 제 이름은 우디 만버(Udi Manber)이며, 구글의 엔지니어링 부사장으로 서치 퀄러티(Search Quality) 팀을 책임지고 있습니다. 구글에서 일한지는 2년이 조금 넘었으며 검색 기술 분야에서 20년 가까운 경력을 가지고 있습니다.
저희 조직의 심장부는 핵심 랭킹 업무를 담당하는 팀입니다. 순위에 관한 업무는 대부분의 사람들이 생각하는 것보다도 훨씬 더 어렵습니다. 그 이유 중 하나는 본래 언어 자체가 가지고 있는 모호성 때문입니다. 또한 각각의 웹페이지 문서들이 일정한 규칙에 따라 작성되고 있지 않으며, 정보를 전달하는 방법에 표준 규격이 있지 않은 문제가 있습니다. 따라서 저희는 누가 어떤 이유에서 만들었는가에 상관없이 모든 웹페이지를 이해하고 있어야 합니다. 여기까지가 문제 해결의 절반에 해당합니다. 이에 더해, 검색어를 통해 사용자들의 의도를 파악해야 하는데, 검색어는 보통 세 단어 이하의 조합으로 이루어지기 때문에 이를 이해하는 것은 쉽지 않습니다. 또 이 같은 검색어를 저희가 알고 있는 모든 웹페이지와 매칭시켜야 합니다. 검색을 하는 사람들이 다른 만큼 검색의 이유 또한 천차만별이지요. 저희는 이 모든 것을 1000분의 1초 안에 처리해야 합니다.
저희 랭킹 알고리즘의 가장 대표적인 것은 구글의 설립자인 래리 페이지와 세르게이 브린이 개발한 페이지랭크 알고리즘입니다. 이 페이지랭크는 지금까지 사용되고 있지만, 이는 현재 매우 거대한 시스템의 일부만을 구성하고 있습니다. 다른 부분들은 언어 모델(구절, 동의어, 발음 구별 표시, 맞춤법 검사 등을 다루는 능력), 검색어 모델(단어 자체만이 아니라 현재 그 단어를 사람들이 사용하는 방식), 시간 모델(일부 검색어는 30분 전에 올라온 페이지 혹은 테스트 중인 페이지가 정확한 답을 포함하고 있을 수 있음), 그리고 맞춤형 모델(모든 사람들이 똑같은 것을 원하는 것은 아님)이 있습니다.
저희 조직 중 한 팀은 우리의 업무가 제대로 진행되고 있는가를 평가하는 일을 담당하고 있습니다. 평가방식은 매우 다양하게 진행되지만, 목표는 늘 동일합니다. 바로 사용자 경험을 향상시키는 것입니다. 이것은 우리의 유일한 목표입니다. 평가는 크게 세 가지로 이루어 집니다. 잘못된 점이 없는가를 확인하기 위해 매분 당 이뤄지는 자동 평가, 전반적인 검색 품질에 관한 정기 평가, 그리고 가장 중요한 과학적 알고리즘의 개선에 관한 평가가 있습니다. 엔지니어의 아이디어를 통해 개발된 새로운 알고리즘은 저희팀을 통해 철저하게 검증됩니다. 이 팀은 새로운 아이디어에 대한 모든 데이터를 검사하고, 그 아이디어의 가치를 결정하는 통계학자들로 구성되어 있습니다. 회의를 통해 매주 새로운 아이디어를 검토하고 신규 서비스 런칭을 승인합니다. 이 같은 과정을 통해 2007년 한 해 동안 새롭게 향상된 450건의 서비스를 런칭했으며, 이는 일주일 평균 9건에 해당하는 것입니다. 이 중 일부는 내용이 아주 간단해 단번에 알 수 있는 것들도 있습니다. 히브리어 약자 표기를 처리하는 방법에 관한 것이 바로 그 대표적인 예입니다(히브리어에서 약자 표기는 마지막 글자 앞에 (") 표시를 함, IBM은 IB"M으로 표기). 물론 복잡한 경우도 있습니다. 지난 1월 페이지랭크 알고리즘에 커다란 변화를 준 것이 한 예입니다. 저희는 대부분의 시간을 관련성(relevancy)을 향상시키는 방법을 연구하는데 사용하고 있지만, 알고리즘 자체를 단순화하기 위한 프로젝트도 진행합니다. 단순한 것이 좋은 것이니까요.
인터내셔널 검색은 지난 2년 동안 저희가 중점을 두어온 분야 중 하나입니다. 이는 주요 언어뿐만 아니라 지구상에서 쓰이는 모든 언어를 대상으로 하는 것입니다. 예를 들어, 지난해 우리는 전 세계에서 오직 8백만 명이 쓰는 언어인 아제르바이잔어 검색마저 현저히 향상시켰습니다. 지난 몇 달 동안 맞춤법 검사 기능을 추가한 언어는 에스토니아어, 까딸루나어, 세르비아어, 세르보-크로아티아어, 우크라이나어, 보스니아어, 라트비아어, 타갈로그어, 슬로베니아어, 페르시아어입니다. 저희는 전세계 사람들과 네트워크를 형성해 이 같은 언어 서비스에 대한 피드백을 받았고, 서로 다른 언어를 사용하는 구글 내의 많은 자원 봉사자들로부터 도움을 얻어 검색 서비스를 향상시키고 있습니다.
또다른 팀은 새로운 기능과 사용자 인터페이스(UI)에 관한 연구에 매진하고 있습니다. 멋진 자동차에는 그에 맞는 뛰어난 엔진이 필요하지만 그것만으로는 충분하지 않습니다. 운전자가 편안한 느낌을 갖고 손쉽게 운전할 수 있도록 해야합니다. 구글 검색의 사용자 인터페이스는 매우 간단합니다. 구글 사용자들 중 도움말 페이지를 읽는 사람들은 거의 없습니다. 이는 설명이 필요 없을 정도로 쉽게 검색을 할 수 있다는 뜻입니다(하지만 도움이 될 만한 내용이기에 지속적으로 업데이트하고 있습니다.). 새로운 기능을 추가할 때에 가장 중요한 점은 바로 파악이 가능하고, 모든 사람들이 쉽게 사용할 수 있어야 한다는 것입니다. 과거 1년 동안 가장 눈에 띄는 변화 중 하나가 바로 유니버설 서치였습니다. 이외에 구글 노트북, 맞춤 검색 등이 있고 iGoogle 역시 크게 향상됐습니다. UI 팀은 사용자를 연구하고 새로운 기능을 평가하는데 전문가 팀의 도움을 받고 있습니다. 이들은 사용자 패턴을 파악하기 위해 전세계를 돌며 사용자 집을 직접 방문하기도 합니다(걱정 마세요, 이들은 불청객이 아니니 느닷없이 찾아가는 일은 없습니다!).
웹스팸이나 기타 웹남용 퇴치 업무에만 전념하는 팀도 있습니다. 이 팀은 특정 검색어가 숨겨진 텍스트, 주제와 관련 없는 내용으로 구성된 오프토픽(off-topic) 페이지, 그리고 검색 결과 순위를 높이기 위해 이용되는 교묘한 수법에 관한 문제들을 연구합니다. 이들은 스팸의 새로운 현상을 찾고 측정 가능한 방법으로 이에 관한 대책을 마련합니다. 모든 다른 팀들과 마찬가지로 이들 역시 국제적인 차원에서 업무를 진행하고 있습니다. 웹스팸 그룹은 구글 웹마스터 센트럴 팀과 긴밀히 협력해 모든 사람들과 지식을 공유하며 사이트 운영자들의 목소리에 귀 기울이고 있습니다.
특정 프로젝트를 전담하는 팀들도 있습니다. 저희 조직구조는 정해진 틀에 맞춰져 있지 않습니다. 서로 자유롭게 오가며 늘 새로운 프로젝트와 함께 합니다.
검색에서 중요한 것 중 하나는 사용자들의 기대치가 빠르게 높아지고 있다는 점입니다. 내일의 검색어는 오늘의 검색어 보다 더 어렵고 복잡해 질 것입니다. 컴퓨팅 속도가 18개월마다 두배씩 늘어난다는 무어(Moore)의 법칙처럼, 어렵고 복잡한 검색어 또한 단시간에 두배씩 늘어난다는 것은 불문율과도 같습니다. 이를 정확히 측정하는 것은 불가능하지만 우리 모두가 그렇게 느끼고 있습니다. 저희는 과거의 영광에 자만하지 않고 더욱 열심히 노력해서 새로운 도전에 맞설 것입니다. 앞서 말씀 드린 바와 같이, 여러분께 서치 퀄러티에 관한 새로운 내용을 지속적으로 전달해 드리겠으니 많은 관심 부탁 드립니다.
작성자: 우디 만버(Udi Manber) 구글 엔지니어링 부사장
Google
취재 문의 이메일 주소: skr-google@ketchum.com 미디어 취재 문의가 아닌 경우 응답해 드리지 않습니다. 다른 문의사항이 있는 경우 Google 도움말 센터를 방문하시기 바랍니다.