구글은
2010년 6월 16일 한국어 음성 검색 서비스를 선보였습니다. 2008년
영어를 필두로, 2009년
중국어와
일본어 서비스를 선보였고, 2010년 6월부터
프랑스어,
이탈리아어,
독일어,
스페인어를 지원하게 되었으며 (본 블로그의
다른 글 참조) 대만어가 바로 뒤를 이었고, 최근에는 체코어, 폴란드어, 러시아어로 확대됐습니다.
사용자가 정확한 웹페이지를 찾을 수 있게 심혈을 기울인 한국어 음성검색 서비스의 경우 출시 초기부터 매우 성공적이라는 평가를 받고 있습니다. 이 서비스를 위해 구글은 음성 모델을 수 차례 개선해 정확도를 크게 높이고 속도 향상을 도모했으며 앞으로도 성능을 더욱 개선하기 위한 노력은 계속될 것입니다. 음성검색은 특히 단어의 길이가 긴 경우의 검색 작업을 단순화하는데 크게 기여하고 있습니다. 그런데 음성으로 텍스트를 입력하는 방식은 검색 뿐만 아니라 스마트폰의 수많은 애플리케이션에서도 동일하게 큰 혜택을 제공할 수 있습니다. 말로 지메일을 작성하거나 음성으로 문자 메시지를 보내는 것이 그런 예 중에 하나입니다. 미국에서 음성 입력 기술을 제공하면서 구글은 입력 시간을 보다 크게 단축시킬 수 있다는 점에서 음성검색 만큼이나 이러한 음성 기반 서비스들이 중요하다는 사실을 알게 됐습니다. 한국어는 영어에 이어 ‘말로 쓰는 구글 모바일 서비스’가 가능해진 두 번째 언어로, 기존에는 텍스트를 입력해야 했던 부분이 이제는 음성으로 가능해졌습니다.
음성입력 기술은 음성검색과 비교해 요구사항과 기술적 도전 과제에서 약간의 차이가 있습니다. 음성검색은 사용자에게 정확한 웹페이지를 제공하기 위해 최적화되지만, 음성입력은 한글이 잘못 입력되는 것을 최소화하기 위해 최적화됩니다. 음성입력은 일반적으로 문장(단문 또는 문장의 일부)이 좀 더 길기 때문에 입력 시스템은 이러한 데이터 유형에 따라 훈련방법이 달라져야 했습니다. 이를 위해 한국인이 자주 사용하는 수백만개의 구어체 문장을 학습했습니다. 음성검색을 위해 사용하는 검색어 외에도 웹페이지, 블로그, 뉴스 기사 내용 등이 적용됐습니다. 구글 시스템은 훈련 받은 내용과 유사한 음성 데이터에 익숙하기 때문에 웹 페이지, 블로그 업데이트, 뉴스 기사 등에서 일반적으로 쓰이는 구어체 문장에 보다 정확히 구현되며 변칙적이거나 잘 쓰이지 않는 문장에는 비교적 약합니다. 이러한 부분에 대해서는 앞으로 지속적인 개선이 이루어질 것입니다.
구글은 앞으로 한국어 음성입력 기술이 모바일에서 유용한 입력 방식으로 자리매김하도록 발전시키겠다는 목표를 갖고 있습니다. ‘말로 쓰는 구글 모바일 서비스’는 음성검색과 마찬가지로 구글의 독보적인 클라우드 컴퓨팅 파워에 기반하고 있으며, 이러한 클라우드 인프라는 향후 사투리, 사용자간의 개인 발음 차이에 상관없이 ‘말로 쓰는 구글 모바일 서비스’의 품질을 빠르게 개선하는데 도움이 될 것입니다.
작성자: 구글 음성인식 총괄 연구원 마이크 슈스터(Mike Schuster), 소프트웨어 엔지니어 카이스케 나카지마(Kaisuke Nakajima)