메인 메뉴 바로가기
구글코리아 블로그

구글 어시스턴트

[I/O 2022] 구글 어시스턴트와 더욱 자연스러운 대화를 나눠보세요

녹색 배경에 여러 색상의 말풍선이 있는 Google Nest Hub Max 그림.

이 글의 원문은 이곳에서 확인하실 수 있습니다.

저와 같은 바쁜 부모의 입장에서 일상을 보다 편하게 만드는 노력은 매우 중요합니다. 구글 어시스턴트는 가족을 위한 저녁 준비에 필요한 조리 방법, 출퇴근 이동 중 교통 상황까지 많은 도움을 제공합니다. 이용자가 집 혹은 이동 중에 더 많은 일을 할 수 있게 도움으로써 정말 중요한 일에 더 많은 시간을 투자할 수 있도록 합니다. 

매달 전 세계 7억 명 이상의 사람들이 구글 어시스턴트와 함께 일을 합니다. 음성 인식은 구글 기기와 소통하는 방법 중 하나입니다. 음성은 사람들이 기기와 통신하는 주요 방법 중 하나로 거듭났지만, 요청을 할 때 마다 “헤이 구글”이라고 말하거나 기기를 직접적으로 조작해야 한다는 것이 부자연스럽게 느껴질 수 있다는 점을 알고 있습니다. 그래서 구글은 오늘 마치 친구와 대화하는 것처럼 구글 어시스턴트와 더 자연스럽게 상호작용할 수 있는 새로운 방법을 소개하고자 합니다.  


대화를 계속 이어나가보세요

첫 번째 새로운 기능인 룩 앤 톡(Look and Talk)은 미국 내에서 네스트 허브 맥스를 통해 이용 가능합니다. 이용자는 그저 해당 기능을 켜고 기기 화면을 보고 필요한 것을 요구하면 됩니다. 해당 기능은 설계 단계부터 이용자의 개인정보 보호를 염두에 두고 구축된 만큼, 페이스 매치 (Face Match) 와 보이스 매치(Voice Match)가 모두 이용자 본인임을 인식할 때만 활성화되도록 설계되었습니다. 또한, 인증 과정에서의 영상들은 온전히 기기 내에서 처리되므로 구글을 포함해 어느 누구와도 공유되지 않습니다. 

예를 들어 주방 배관을 수리하고자 할 때, 방에 들어가면서 네스트 허브 맥스를 보고 “헤이 구글”이라고 먼저 부를 필요 없이 “근처에 있는 배관공을 알려줘”라고 물으시면 됩니다. 

LTBOaCHEvbU
10:25

단순히 지나가며 던지는 눈길이 아니라 실제로 장치와 눈을 마주치고 있는지에 대한 여부를 판별하기 위해 많은 일들이 벌어지고 있습니다. 실제로 근접성, 머리 방향, 시선 방향, 입 모양, 상황 인지, 이용자 식별 및 의도 분류 등 100개 이상의 신호를 실시간으로 처리하려면 무려 6개의 머신 러닝 모델이 필요합니다.

또한 구글은 룩 앤 톡(Look and Talk) 기능이 다양한 피부색을 인식할 수 있도록 수많은 테스트 작업을 거쳐 이를 개선했습니다. 해당 작업에 있어 구글은 픽셀 6 카메라에서 보다 공평한 경험을 만들기 위한 결과물이었던 리얼 톤(Real Tone)을 동일하게 적용했습니다. 

Google Nest Hub Max에서 음성으로 쿠키를 굽고 타이머를 설정하는 남자.

이에 더해 구글은 일상적인 작업 수행에 있어 더 이상 "헤이, 구글"이라고 말할 필요가 없도록 네스트 허브 맥스 상에 빠른 명령어(quick phrases)를 확대하고 있습니다. 이용자는 그저 방에 들어서자마자 "복도 불 켜줘" 혹은 오븐을 예열할 때 "타이머 10분으로 맞춰 줘"라고 말하면 됩니다. 빠른 명령어는 개인정보 보호를 염두에 두고 설계되었습니다. 빠른 명령어를 활성화한 경우, 지정한 활성화 문구를 보이스 매치(Voice Match)를 통해 이용자 본인임을 기기가 인식한 경우에만 활성화될 것입니다.

미래의 목표: 보다 자연스러운 대화 
일상 대화에 있어 우리는 모두 자연스럽게 자신을 바로잡기 위해 "음"이라고 말하거나 적절한 단어를 찾기 위해 가끔 말하기를 멈춥니다. 하지만 사람들은 적극적인 경청과 대화 신호에 200밀리초 이내에 반응할 수 있어 문제 없이 이해할 수 있습니다. 구글은 구글 어시스턴트 역시 이용자의 말을 듣고 이해할 수 있어야 한다고 생각합니다. 
이를 위해 구글은 이용자가 말하기를 중단한 것이 아니라 잠시 말을 하지 않고 있는 경우와 같이 사람의 말의 뉘앙스를 이해할 수 있는 새롭고 더 강력한 음성 인식 모델을 개발하고 있습니다. 또한 기기 내 머신러닝이 초고속으로 작업을 처리하도록 맞춤 설계된 텐서 칩을 통해 실시간 대화의 유동성에 점점 더 가까워지고 있습니다. 앞으로 구글 어시스턴트는 일시 중지, “음” 및 갑작스러운 대화 방해 등에 오작동하지 않고 인간 언어의 불완전성을 훨씬 더 원활하게 이해할 수 있기 때문에 구글 어시스턴트와 더욱 자연스러운 상호작용을 통해 자연스러운 대화처럼 느껴지실 것입니다. 

주어진 프롬프트를 생성하기 위해 누군가 말하기를 마칠 때까지 기다리는 Google 어시스턴트 시연입니다.

구글은 구글 어시스턴트가 가정에서나, 차에서나, 이동 중이던 간에 이용자의 일상적인 작업을 수행하는 가장 쉬운 방법으로 거듭날 수 있도록 열심히 노력하고 있습니다. 그리고 최신 업데이트를 통해 기술에 대해 생각하는 시간 대신 현재에 머무르는 데 더 많은 시간을 할애할 수 있는 세상에 한 걸음 더 가까워지게 되었습니다.