작성자: 구글 할 바리안, 수석 경제학자 날짜: 2008년 3월 11일 화요일 우리는 사용자 데이터를 어떻게 다루고 프라이버시를 보호하는지에 대해 종종 이 공간을 통해 논의하고 있습니다. 우리가 수집한 데이터를 어떻게 활용해 사용자에게 우리 제품과 서비스를 향상시키는지를 논의하기 위한 시리즈를 아래 포스트를 통해 시작하고자 합니다. 먼저 데이터가 검색 기술의 발전에 얼마나 중요한 것이었는가를 설명하는 포스트부터 시작하는 게 적절할 것 같습니다. – 편집자주.더 좋은 데이터가 더 나은 과학을 만듭니다. 정보 검색(information retrieval)의 역사는 이 같은 원리를 잘 보여줍니다.이 분야의 작업은 컴퓨터 초창기 때부터 시작됐습니다. 당시에는 텍스트 파일에 있는 단어와 구문에 맞는 질의어(querie)에 기초해 단순한 문서 검색이 이루어졌습니다. 새로운 데이터 소스가 활용되면서 알고리즘은 진화했으며 더욱 복잡하게 발전했습니다. 웹의 출현은 검색에 대한 새로운 도전이었습니다. 지금은 웹의 링크나 관련 표시를 나타내는 다른 많은 방법을 통해 정보를 얻는 것은 흔한 일이 되었지만 말입니다.오늘날 웹 검색을 위한 알고리즘은 수십억 개의 기존 검색 질의어 기록(로그)에서 도출된 “대중의 지혜”를 통해 상당한 정도로 훈련을 받고 있다고 할 수 있습니다. 이처럼 검색의 역사를 간략히 돌아보면, 데이터의 사용이 구글 사용자들에게 구글 검색을 보다 가치 있게 만드는 데 꼭 필요한 것임을 알 수 있습니다.검색 기술의 약사(略史)오늘날 같이 특히 웹을 광범위하게 사용하는 시대에는 검색이 화두입니다. 문서 검색의 역사는 1950년대로 거슬러 올라갑니다. 그런 옛날에도 검색엔진은 존재했습니다. 하지만 이들 엔진의 1차적인 사용은 문서의 정적인 수집을 찾아내는 것이었죠. 60년대에는 연구소를 중심으로 기사의 요약을 디지털화해 새로운 데이터를 수집하는 방안이 나왔고, 이로 인해 60~70년대 검색 기술 분야가 빠르게 발전했습니다. 하지만 80년대 후반까지 이 분야의 진척은 크게 늦춰지게 되었습니다.정보 검색에 관한 연구를 활성화하기 위해 미 국립표준기술연구소(NIST)가 1992년 TREC 프로젝트(텍스트 검색 컨퍼런스, Text Retrieval Conference)를 만들었습니다. TREC는 새로운 데이터를 텍스트만 있는 문서의 형태로 소개했고, 인간의 판단을 통해 특정한 문서가 일련의 질의어와 관련이 있는지 여부에 따라 문서를 분류했습니다. 그들은 이런 데이터의 샘플을 과학자들에게 제시했고, 과학자들은 새로운 일련의 질의어와 관계된 문서를 찾기 위해 자신들의 시스템을 훈련시키고 향상시켰습니다. 그리고 자신들의 결과를 TREC를 통해 인간의 판단은 물론, 다른 과학자들이 만든 알고리즘과 비교하게 했습니다.TREC 데이터는 정보 검색에 관한 연구를 활성화시키는 데 기여했습니다. 표준적이고 광범위하게 이용할 수 있고 신중하게 만들어진 일련의 데이터들은 이 분야에서 새로운 혁신이 나오게 하는 기반이 되었습니다. 연례적으로 열린 TREC 컨퍼런스는 협업, 혁신, 측정할 수 있는 경쟁량(그리고 우쭐해 할 수 있는 권리)을 가져왔고 이를 통해 더 나은 정보 검색을 가져왔습니다.새로운 아이디어는 빠르게 퍼졌고 알고리즘은 향상됐습니다. 하지만 매번 새로운 향상이 있을 때 마다 1년 전 향상된 기술에 또 다른 향상을 더하는 것은 해가 갈수록 힘든 일이었고, 이에 따라 결국 검색 기술의 발전 속도는 다시 쳐지게 되었습니다.이 때 웹이 나타났습니다. 웹의 초기 단계에서는 과학자들이 TREC 연구에 기초한 업계 표준의 알고리즘을 사용해 웹에서 문서를 찾으려고 했습니다. 결국 더 나은 검색 기술의 필요성이 대두됐습니다. – 지금은 단순히 과학자뿐만 아니라 일상의 사용자들을 위해 이런 필요성이 제기되고 있죠 - 그리고 웹은 링크의 형태로 새로운 많은 데이터를 가져 다 주었는데 이 같은 링크가 새로운 발전 가능성을 제시한 것입니다.이에 대한 발전은 두 가지 차원에서 진행됐습니다. 상업적 차원에서는 일부 기업들이 웹 검색 엔진을 제공하기 시작했지만, 어떤 비즈니스 모델이 제대로 작동할지는 아무도 확신하지 못했습니다.순수 연구 차원에서는 미 국립과학재단(National Science Foundation)이 "디지털 라이브러리 프로젝트(Digital Library Project)"를 출범시켜 일부 대학에 기증했습니다. 컴퓨터 사이언스를 전공한 스탠포드 졸업생 래리 페이지와 세르게이 브린이 이 프로젝트를 담당하게 되었습니다. 그들은 여기서 웹 문서의 특별한 연결 구조를 사용하면 기존의 검색 알고리즘을 극적으로 끌어올릴 수 있다는 것을 발견했고 이렇게 해서 태어난 것이 페이지랭크(PageRank)였습니다.구글의 데이터 이용 원리페이지랭크는 웹페이지의 관련성을 키워드뿐만 아니라 연결된 사이트의 양과 질에 따라 서열화 시킴으로써 기존 알고리즘을 획기적으로 향상시켰습니다. 내가 만일 월스트리트 저널, 뉴욕 타임즈, 미 하원과 같은 사이트로부터 6개의 링크를 얻었다면, 나와 같은 학교 친구들이 우연히 열어본 웹페이지를 통해서 관련 링크가 20개 이상으로 증가하게 되는 것입니다.래리와 세르게이는 처음 자신들의 알고리즘을 새로 만들어진 일부 웹 검색 엔진에 라이센스를 주려고 했지만 아무도 관심을 보이지 않았습니다. 자신들의 알고리즘을 팔 수 없자 그들은 스스로가 검색엔진을 만들기로 결정했습니다. 이후의 이야기들은 잘 알려져 있죠.해를 거듭할수록, 구글은 검색 기능을 더 잘 만들기 위해 투자를 지속해 왔습니다. 우리의 정보 검색 전문가들은 이용자 질의어와 관련, 웹사이트의 관련성을 결정하는 알고리즘에 추가적으로 200개가 넘는 신호를 더했습니다.그렇다면 그들 200개의 신호는 어디서 온 것일까요? 다음 단계의 검색은 무엇이고 더욱 관련성이 있는 정보를 온라인에서 찾기 위해 우리는 무엇을 해야 할까요?우리는 알고리즘을 갖고 매주 단위로 이리 저리 조절하는 실험을 지속적인 실험을 시행하고 있습니다. 이를 통해 사용자들이 더욱 관련성이 있고 유용한 결과를 얻을 수 있도록 하는 것입니다.하지만 새로운 문서 서열화 기술을 개발하기 위해, 그리고 사용자들이 이 기술을 유용하게 보고 있는지 평가하기 위해, 우리는 검색 기록을 저장하고 분석해야 합니다. (우리 로그에 실제로 어떤 데이터가 저장되어 있는지 보려면 비디오를 클릭하세요.) 사람들은 어떤 결과를 클릭하는지, 우리가 알고리즘의 차원을 바꾸면 사람들은 어떻게 행동을 바꾸는지, 로그에 기록된 테이터를 사용하면, 여러분이 유용한 정보를 찾도록 하기 위해 우리가 지금 얼마나 잘하고 있는지를 일년전과 비교할 수 있습니다. 만약 역사를 기록해 두지 않으면 우리의 진척과 향상을 평가하는 방법은 없어지고 말겠지요.간단한 예를 들어보면 이렇습니다: 구글 철자법 검사는 우리 로고에 저장된 사용자 검색의 분석에 기반을 둔 것이지 사전이 아닙니다. 마찬가지로, 사용자 질의어 데이터를 사용해 지리적인 위치 정보를 향상시켜 더 나은 현지 검색을 가능케 해왔습니다.사용자 검색의 로그를 저장하고 분석하는 것이 바로 구글의 알고리즘이 여러분에게 더 유용한 결과를 제공하는 방법인 것입니다. 데이터의 이용이 과거 검색의 발전을 이룩했듯이 우리 검색 로그에 있는 데이터는 미래의 돌파구를 만드는 중대한 요소가 될 것입니다.
Google
취재 문의 이메일 주소: skr-google@ketchum.com 미디어 취재 문의가 아닌 경우 응답해 드리지 않습니다. 다른 문의사항이 있는 경우 Google 도움말 센터를 방문하시기 바랍니다.