2021년 5월 19일 수요일

MUM: 정보 이해를 위한 새로운 AI 이정표

가끔 주위 사람들에게 구글 검색(Google Search) 개발자로 일하고 있다고 말하면, "구글 검색에 더 할 일이 남아 있나요?"라는 질문을 듣곤 합니다. 저는 항상 "당연하죠!"라고 대답합니다. 사용자들에게 더욱 좋은 검색 결과를 보여주기 위해, 구글은 수 많은 과제들을 해결하고 있습니다. 오늘, 구글은 이미 많은 사람들이 겪었고 공감할 만한 과제, 필요한 답변을 얻기 위해 여러번 검색해야하는 문제를 해결할 구글의 방안을 공유하고자 합니다. 




예시로 시나리오를 드려보겠습니다: 아담스산을 등반한 적 있는 사용자가 내년 가을에 후지산을 오르기 위해 특별히 다르게 준비해야 할 점이 있는지 알고 싶습니다. 물론 현재도 구글 검색은 이에 대한 답변을 제공할 수 있지만 각 산의 고도부터 가을 평균 기온, 등산로의 난이도, 사용할 적절한 장비까지 많은 검색 단계를 거쳐야합니다. 결국 여러 번의 검색을 통해야만 필요한 답변을 얻을 수 있는 셈입니다. 




하지만 등산 전문가에게 “이번에는 다르게 준비할 것이 있을까요?”라고 질문하면 질문의 뉘앙스를 고려해 여러 가지 고려 사항들을 안내하는 등 사려 깊은 답변을 들을 수 있을 것 입니다. 




예시로 드린 등산 시나리오는 전혀 특별한 질문이 아닙니다. 이미 많은 사람들이 구글 검색을 통해 여러 단계를 거쳐야 하는 다양한 질문을 검색하고 있습니다. 실제로 복잡한 질문에 대한 답을 얻기 위해 평균적으로 8개의 부수 질문을 한다고 합니다. 




오늘날의 검색 엔진은 전문가가 답변하는 만큼 정교하지 않습니다. 하지만 MUM(Multitask Unified Model, 멀티태스킹 통합 모드)이라는 새로운 기술을 통해 복잡한 요구사항을 해결하는 데 점차 가까워지고 있습니다. 앞으로는 많은 검색이 필요했던 작업들이 거치는 단계를 크게 줄여, 1번의 질문만이 가능하게 하는 것이 구글의 목표입니다.




단순한 답이 없을 때에도 도움을 드릴 수 있습니다

MUM은 구글이  작업을 지원하는 방식을 변화시킬 잠재력을 가지고 있습니다. MUM은 BERT와 마찬가지로 트랜스포머 아키텍처(Transformer architecture)를 기반으로 구축되었지만, BERT보다 1,000배 더 강력합니다. MUM은 언어를 이해할 뿐만 아니라 생성하기도 합니다. 한 번에 75개 언어로 훈련할 수 있을뿐만 아니라 기존 모델들과 달리 새로운 방법들을 통한 정보 확인을 위해 멀티태스킹도 수행할 수 있습니다. 또한 MUM은 멀티모달로 텍스트 및 이미지 등의 등의 정보를 이해할 수 있도록 훈련되어 향후 비디오 및 오디오를 포함해 보다 많은 종류의 콘텐츠로도 확장 가능할 것 입니다.





예로 들어 후지산을 등산 질문의 경우, MUM은 당신이 두 산을 비교하고 있다는 것을 알아차리고, 고도와 등반 트랙 정보가 필요하다는 것도 이해할 것입니다. 또한 등반이라는 맥락에서 “준비”를 한다는 것은 필요한 장비를 갖추는 것 뿐만 아니라 피트니스 훈련과 같은 것들도 포함될 수 있다는 것도 이해할 것입니다. 



MUM은 세상에 대한 깊은 지식을 바탕으로 인사이트를 도출할 수 있어, 후지산은 아담스산과 거의 같은 높이이지만, 가을에 후지산은 장마철이기 때문에 방수가 되는 재킷이 필요하다는 것을 강조할 수 있습니다. 또한 MUM은 심층적 탐구를 위해 최고의 성능을 가진 장비 또는 가장 좋은 준비 운동과 같이 유용한 하위 주제를 도출할 수 있어 관련 기사, 비디오 및 이미지를 웹으로 검색하는데 도움을 줄 수 있습니다. 




언어 장벽 제거

언어는 정보에 접근하는데 있어 커다란 장벽이 될 수 있습니다. MUM은 여러 언어로 지식을 전달함으로써 언어 장벽을 허물 수있는 잠재력을 가지고 있습니다. 즉, 검색어를 작성한 언어로 쓰여지지 않은 자료에서도 알맞은 정보를 찾아내 가져올 수 있음을 뜻하고 있습니다. 





예를 들어, 후지산에 대한 유익한 정보가 일본어로 쓰여져 있을 경우, 현재는 일본어로 질문을 검색하지 않으면 아마 정보를 찾을 수 없을 것입니다. 하지만 MUM은 자료에서 얻은 지식을 언어 간에 장벽 없이 전달 할 수 있어, 이러한 능력으로 사용자가 원하는 언어로 가장 적절한 결과를 찾아낼 수 있습니다. 따라서 훗날, 후지산 방문에 대한 정보를 찾을 때 여러분은 산에서 가장 좋은 경치를 즐길 수 있는 곳, 그 지역의 온천과 유명한 기념품 가게 등 현재는 일본어로 검색했을 때 더 잘 나오는 정보를 쉽게 발견할 수 있습니다.



다양한 형식의 정보 이해

MUM은 웹 페이지, 사진 등 다양한 형식의 정보를 동시에 이해할 수 있는 멀티모달입니다. 당신은 언젠가 등산화의 사진을 찍어서 “후지산을 등산할 때 이 신발을 사용해도 되나요?”라고 물어볼 수 있을지도 모릅니다. 그 때 MUM은 이미지를 이해하고, 질문과 연결하여 그 신발을 착용해도 된다는 것을 알려줄 수 있을 것입니다. 아울러, 추천 장비 목록에 대해 알아볼 수 있는 블로그도 제공할 수 있을 것 입니다. 


책임감을 가지고 검색에 발전된 AI를 적용

우리가 세계의 정보에 더 쉽게 접근할 수 있도록 AI를 이용해 도약할 때마다, 새로운 시스템을 구글 검색에 도입함에 있어 책임감을 갖고 임하고 있습니다. 구글 검색의 모든 개선 사항은 보다 적절하고 유용한 결과를 제공하기 위해 엄격한 평가 과정을 거칩니다. 검색 퀄리티 평가 가이드라인을 따르는 평가원들이 검색 결과가 사람들이 정보를 찾는데 얼마나 유용한지 이해하는데 도움을 줍니다.  




2019 년에 출시 된 BERT의 많은 적용법을 신중하게 검증한 바와 같이, MUM도 구글 검색에 모델을 추후 몇 개월 또는 몇 년 내에 적용할 때 동일한 프로세스를 거칠 것입니다. 구체적으로, 구글의 시스템이 편향되지 않도록 머신러닝에 편견을 심어줄만한 패턴을 살펴볼 예정입니다. 또한 MUM과 같은 모델의 훈련 시스템에 들어가는 탄소 배출량을 크게 줄일 수 있는 방법을 제시하는 최신 연구를 활용하여 구글 검색이 최대한 효율적으로 계속 실행되도록 할 것입니다.




구글은 앞으로 몇 개월 또는 몇 년 내에 MUM 기반 기능 및 제품 업데이트를 진행할 예정입니다. 아직은 MUM은 연구 초기 단계지만, 이는 사람들이 자연스럽게 정보를 전달하고 해석하는 다양한 방법을 구글이 모두 이해할 수 있는 미래를 향한 중요한 이정표입니다. 




작성자: 판두 나약(Pandu Nayak), 구글 펠로우 및 검색 부문 부사장