[TL;DR]
약 24년 전, 두 명의 대학원생과 한 개의 제품, 그리고 전 세계 지식과 정보를 한데 모아 이를 보편적으로 접근가능하고 또 유용하게 만들겠다는 미션과 함께 첫 발걸음을 디뎠습니다. 이후 구글이 개발하고 선보이는 기술들은 모두 이 미션의 연장선상에 있습니다.
구글이 이뤄낸 발전의 밑바탕에는 AI에서부터 모든 기술을 뒷받침하는 인프라에 이르기까지 첨단 기술에 대한 지속적인 투자가 자리잡고 있습니다. 일년에 단 한 번 - 제가 가장 좋아하는 날이기도 하죠:) - 구글 I/O를 통해 진행 상황에 대한 업데이트를 공유드릴 수 있어 기쁘게 생각합니다.
오늘 저는 구글이 저희의 미션 중 두 가지 기본 측면이기도 한 ‘지식’과 ‘컴퓨팅’, 이 두 분야에 대해 저희가 어떤 방식으로 접근하고 발전을 도모하고 있는지, 그리고 이를 바탕으로 유용한 제품을 제공해 드리기 위해 노력했는지를 말씀드리겠습니다. 제품과 서비스를 개발하는 것은 매우 즐거운 일입니다만, 이 제품들을 잘 활용해 주시는 이용자분들을 바라보는 일은 그보다 훨씬 더 큰 기쁨입니다.
이 자리를 빌어 저희의 노력에 큰 도움을 주신 모든 분들, 특히 구글 직원 분들께 큰 감사 인사를 전합니다. 또한 이러한 기회를 갖게 되어 굉장히 기쁘다는 말씀도 덧붙입니다.
- 순다 피차이(Sundar Pichai)
[편집자 주: 하단은 금일 구글 I/O 개발자 컨퍼런스 개막 당시 순다 피차이의 키노트를 편집한 내용입니다.]
안녕하세요, 여러분 다시 한번 만나뵙게 되어 대단히 반갑습니다! 3년만에 쇼어라인 앰피씨어터(Shoreline Amphitheatre)로 돌아오게 되어 굉장히 기쁩니다. 특히 수 천 명의 개발자, 파트너 및 구글러들을 만나 뵙게 되어 굉장히 감회가 남다르네요. 아울러 전 세계 수 백만 명 이상의 참여자분들에게도 참여해주심에 다시 한번 감사의 말씀을 드립니다.
작년 구글은 컴퓨터 과학 내 가장 기술적으로 도전을 요하는 분야에서 중요한 순간마다 혁신이 문제를 해결하는 데 있어 어떻게 구글 제품이 유용하게 작동할 수 있는지에 대해 공유했습니다. 구글의 모든 작업은 전 세계 지식과 정보를 한데 모으고 이를 보편적으로 접근할 수 있으며 유용하게 만들겠다는 변치않는 사명 하에 이루어지고 있습니다.
오늘 구글이 해당 미션을 추구하기 위해 진행하고 있는 두 가지 노력을 보여드리게 되어 굉장히 기쁘게 생각합니다. 구글은 정보에 대한 이해를 심화함으로써 이를 지식으로 제공할 수 있었으며, 컴퓨팅을 지속적으로 발전시켜 이용자가 누구인지, 어디에 있는지와 관계없이 해당 지식을 더 쉽게 접할 수 있도록 만들었습니다.
앞서 말씀드린 두 분야를 중심으로 구글의 제품은 항상 이용자 분들께 도움을 제공해드리는 방향으로 만들고 개발하고 있음을 덧붙여 말씀드립니다. 몇 가지 예시를 통해 이를 살펴보겠습니다. 팬데믹 기간 동안 구글은 사람들의 건강을 보호하기 위해 정확한 정보를 제공하는 것에 상당한 노력을 기울였습니다. 지난 1년 동안 사람들은 코로나 19 백신을 접종할 수 있는 주변 시설을 찾기 위해 구글 검색과 구글 지도를 약 20억 회 이상 사용했습니다.
구글의 홍수 예측 시스템은 지난해 인도와 방글라데시에 거주하고 있는 2,300만 명에게 홍수 경보 서비스를 제공했습니다.
또한 구글은 자연 재해 발생 시 사람들이 안전하게 대피할 수 있도록 도움을 주는 홍수 예측 기술을 발전시켜왔습니다. 작년 장마철 기간 구글의 홍수 예측 시스템은 인도와 방글라데시에 거주하고 있는 약 2,300만 명 이상의 사람들에게 홍수 경보 서비스를 제공했습니다. 그리고 구글은 이 서비스가 약 수십만명의 사람들을 적시에 대피시키는 데 도움이 된 것으로 파악하고 있습니다.
우크라이나에서 구글은 정부와 협력해 공습 경보를 신속하게 배포했습니다. 지금까지 구글은 수억 개의 경보를 통해 사람들이 안전하게 이동할 수 있게 했습니다. 지난 3월에 저는 폴란드에 있었습니다. 당시 수백만 명의 우크라이나인들이 폴란드에서 피난처를 찾고 있었습니다. 폴란드에 사는 사람들이 자신의 집에 난민들을 수용하고, 학교에서는 수천 명의 새로운 학생들을 수용하면서 바르샤뱌의 인구는 거의 20% 증가했습니다. 제가 그곳에서 대화를 나눴던 거의 모든 구글 직원들도 난민을 수용하고 있었습니다.
구글 번역에 추가된 24개의 새로운 언어
구글 번역은 전 세계적으로 새로운 이민자와 거주자가 서로 의사 소통을 시도하는 데 중요한 도구로 사용되었습니다. 구글은 우크라이나인들이 집으로 돌아갈 수 있을 때까지 희망과 연결을 찾을 수 있도록 기꺼이 도움을 제공하고 있습니다.
구글 실시간 번역은 더 나은 삶을 만들기 위한 지식과 컴퓨팅 결합의 산물입니다. 그 어느 때보다 많은 사람들이 구글 번역을 사용하고 있지만 여전히 모든 사람들이 사용할 수 있기 위해서는 아직 많은 노력이 필요합니다. 오늘날 웹상에서 소외되고 있는 긴 리스트의 언어가 존재하며, 번역 모델은 영어와 스페인어 모두 동일한 구문을 학습하는 등 일반적으로 이중 언어 텍스트로 학습하기 때문에 이를 번역하는 것은 기술적으로 어려운 문제입니다. 그러나 공개적으로 모든 언어에 사용 가능한 이중 언어 텍스트가 충분하지는 않습니다.
기계 학습의 발전으로 인해 구글은 한 번도 번역해보지 않은 새로운 언어도 번역할 수 있는 단일 언어 접근법을 개발했습니다. 원어민 및 기관과의 협업을 통해 구글은 이러한 번역 기술이 충분히 유용한 품질을 갖고 있다는 것을 알게 되었고, 계속해서 개선해나갈 것입니다.
구글은 케추아어를 포함하여 24개의 새로운 언어를 구글 번역에 추가할 것입니다.
오늘 저는 미국 원주민 언어를 포함한 24개의 새로운 언어를 구글 번역에 추가하게 되었다는 소식을 전하게 되어 기쁩니다. 전세계 3억명의 사람들이 이 언어들을 사용하고 있습니다. 이와 같은 획기적인 발전은 우리가 지식에 접근하고 컴퓨터를 사용하는 방법에 대한 근본적인 변화를 일으키고 있습니다.
한 단계 발전된 구글 지도
우리가 살고 있는 세계에 대해 알 수 있는 것의 많은 부분이 언어를 넘어 주변의 물리적, 지리 공간적 정보에 있습니다. 15년 이상 동안 구글 지도는 탐색에 도움이 되도록 해당 정보를 풍부하고 유용하게 표현하기 위해 노력해 왔습니다.
구글 지도의 범위를 외곽 지역으로 확장하거나 보다 직관적인 방식으로 세상을 탐험하는 방법을 재구상하는 등 AI의 발전은 이러한 구글 지도의 표현 작업을 한 단계 더 발전시켰습니다.
AI의 발전은 외딴 지역과 시골 지역을 지도화하는 데 도움을 주고 있습니다.
구글은 현재까지 전 세계적으로 약 16억 개의 건물과 6천만 킬로미터가 넘는 도로를 매핑했습니다. 과거에는 일부 외딴 지역 및 시골 지역은 고품질 이미지 부족과 독특한 건물 유형 및 지형으로 인해 매핑하기 어려웠습니다. 구글은 이러한 문제를 해결하기 위해 컴퓨터 비전과 신경망을 활용해 위성 이미지에서 대규모 건물들을 발견했고 기록했습니다. 그 결과 2020년 7월부터 구글 지도에 등록된 아프리카 지역의 건물 수를 6천만 개에서 거의 3억 개까지 5배 확대했습니다.
또한 구글은 올해 구글 지도에 있는 인도와 인도네시아의 건물 수를 두 배로 늘렸습니다. 구글의 이러한 새로운 기술을 통해 전 세계적으로 구글 지도에 있는 건물의 20% 이상을 찾아낼 수 있었습니다. 구글은 여기서 한 걸음 더 나아가 아프리카에 있는 건물들의 데이터 세트를 공개적으로 이용할 수 있도록 했습니다. 유엔과 세계은행과 같은 국제기구들은 이미 인구 밀도 이해와 긴급지원 제공을 위해 이 데이터를 사용하고 있습니다.
구글 지도의 몰입형 뷰는 항공 이미지와 거리 이미지를 융합하여 보여줍니다.
또한 구글 지도에 새로운 기능을 도입하고 있습니다. 3D 매핑과 머신러닝의 발전을 이용하여 한 장소를 새롭고 충실하게 표현하기 위해 수십억 개의 항공 및 거리 수준의 이미지를 융합하고 있습니다. 이러한 획기적인 기술이 결합해 몰입형 뷰라고 불리는 구글 지도의 새로운 경험을 제공합니다. 몰입형 뷰는 여러분이 전에 없던 방식으로 장소를 탐험할 수 있게 만듭니다.
런던으로 가서 한 번 보죠. 가족과 함께 웨스트민스터를 방문할 계획이라고 가정해 볼까요. 스마트폰의 구글 지도에서 바로 이 몰입감 넘치는 경치를 감상할 수 있고, 관광지를 둘러볼 수도 있습니다. 여기 웨스트민스터 사원이 있습니다. 빅벤으로 갈 생각이라면 차가 막히는지, 얼마나 막히는지, 심지어 일기예보까지 확인할 수 있습니다. 그리고 만약 방문하는 동안 간단한 식사를 하고 싶다면, 근처에 있는 식당들을 확인하고 실내를 엿볼 수 있습니다.
놀라운 점은 드론이 레스토랑 내부로 날아가는 것이 아니라는 점입니다. 구글은 신경 렌더링을 통해 이미지만으로 경험을 만들어냅니다. 또한 구글 클라우드 몰입 스트림(Google Cloud Immersive Stream)을 사용하면 거의 모든 스마트폰에서 이와 같은 경험을 할 수 있습니다. 이 기능은 올해 말부터 전 세계 일부 도시에 한해 구글 지도를 통해 출시될 예정입니다.
구글 지도에 업데이트된 또 다른 기능은 친환경 길안내(eco-friendly routing)입니다. 작년에 출시된 이 기능은 가장 연료 효율적인 경로를 보여줘 이용자에게 연료 비용을 절약하고 차량의 탄소 배출량을 감소시킬 수 있는 옵션을 제공합니다. 이미 미국과 캐나다에서 선보인 친환경 길안내를 통해 이용자들은 약 860억 마일을 여행했으며, 이는 자동차 10만대를 도로에서 없애는 것과 동일한 효과인 약 50만 톤의 탄소 배출량 감소에 도움이 되었습니다.
친환경 길안내는 올해 말 유럽으로 확대됩니다.
올해 말 이 기능을 유럽을 포함한 더 많은 지역으로 확장하게 되어 기쁩니다. 베를린의 예시를 보면 3분 정도 느린 경로를 이용했을 때 연료 소비를 18% 줄일 수 있습니다. 이러한 작은 결정들이 큰 영향력을 발휘합니다. 유럽 및 그 너머로 확장됨에 따라 탄소 배출 절감 효과가 연말까지 두 배 늘 것으로 예상하고 있습니다.
또한, 구글 항공편(Google Flights)에도 비슷한 기능을 추가했습니다. 두 도시 간 항공편을 검색할 때 가격 및 일정과 같은 정보와 함께 탄소 배출량 추정치도 보여줌으로써 보다 친환경적인 옵션을 쉽게 선택할 수 있습니다. 구글 지도 및 구글 항공편의 이러한 친환경적인 기능은 10억 명의 사람들이 구글 제품을 통해 보다 지속 가능한 선택을 할 수 있도록 하는 구글의 목표 중 하나이며, 해당 분야에서 진전을 이뤄낼 수 있다는 점을 매우 기쁘게 생각합니다.
영상 콘텐츠에 쉽게 접근할 수 있도록 도와주는 새로운 유튜브 기능
영상은 우리가 정보를 공유하고, 소통하고, 배우는 데 있어 훨씬 더 핵심적인 유형이 되고 있습니다. 많은 유튜브 이용자들은 영상을 재생하면서 특정 부분을 찾고자 노력하는데요. 이러한 사용자들이 더 빨리 영상 속 장면을 찾을 수 있도록 도와 드리고자 합니다.
작년에는 영상 속 핵심 부분으로 쉽게 이동할 수 있는 자동 생성 챕터를 출시했습니다. 이 기능은 크리에이터들이 별도로 영상 챕터를 만들 필요가 없기 때문에 시간을 절약해주는 유익한 기능입니다. 이러한 기술을 구현하고자 구글 딥마인드(DeepMind)의 멀티모달 기술을 적용하고 있습니다. 텍스트, 오디오 및 비디오를 동시에 사용하여 더욱 정확하고 빠르게 챕터를 자동으로 생성합니다. 이를 통해 구글은 현재 8백 만개의 자동 생성된 챕터가 있는 비디오 수를 내년에는 8천만 개까지 10배 가량 늘릴 목표를 세우고 있습니다.
종종 영상의 내용을 이해하는 가장 빠른 방법은 영상 스크립트를 읽어보는 것입니다. 이러한 방법을 따라 구글은 음성 인식 모델을 이용해 영상을 텍스트로 변환하고 있습니다. 영상 스크립트 기능은 앞으로 모든 안드로이드 및 iOS 이용자가 사용할 수 있게 되었습니다.
유튜브 자동 번역
아울러 유튜브의 자동 번역 자막이 이제 휴대폰에서도 지원될 예정입니다. 이용자는 이제 16개 언어로 영상 자막을 자동 번역할 수 있고, 이 기능으로 콘텐츠 제작자는 전 세계 모든 시청자를 위한 영상을 제작할 수 있습니다. 6월에는 전쟁과 관련된 정확한 정보에 대한 접근성을 높이기 위한 노력의 일환으로 우크라이나어 유튜브 콘텐츠에 대해 자동 번역 캡션 기능을 확대할 예정입니다.
구글 워크스페이스를 통한 작업 효율성 향상
유튜브의 기능 개선을 위해 인공지능을 사용하는 사례와 같이 구글은 업무 효율성 향상을 위해 워크스페이스 제품에도 AI를 적용하고 있습니다. 기업의 규모와 상관없이 여러분은 문서를 읽는 데 많은 시간을 할애할 것입니다. 특히 회의를 5분 남겨두고 25페이지 분량의 문서를 급하게 읽어야 하는 순간은 그 누구도 원하지 않는 공포스러운 상황일 것입니다.
구글에서는 긴 문서나 이메일을 받을 때마다 상단의 TL;DR을 찾습니다. TL;DR은 "Too Long, Didn’t Read(너무 길어서 읽지 않을 분들을 위한 요약)"의 준말입니다. 이것을 보고 TL;DR이 다른 곳으로 확대된다면 더 좋지 않을까라는 생각이 들었습니다.
바로 이러한 이유로 구글 닥스에 자동 요약 기능을 도입했습니다. 구글 닥스는 텍스트 요약을 위한 머신러닝 모델 중 하나를 사용하여 자동으로 단어를 분석하고 핵심 요점을 뽑아냅니다.
이것은 자연어 처리에 있어 매우 큰 성과입니다. 요약 기능을 구현하기 위해서는 긴 구절, 정보 압축 및 언어 생성 등 여러 개념에 대한 이해가 필요한데, 과거에는 최고의 머신러닝 모델 조차도 능력 밖의 일이었습니다.
구글 닥스는 시작에 불과합니다. 워크스페이스의 다른 제품에도 요약 기능이 도입됩니다. 앞으로 몇 달 안에 구글 챗에도 기능이 추가되어 채팅과 관련된 유용한 요약 정보가 제공될 것입니다. 이 기능으로 그룹 채팅 중간에 합류해도 대화 내용을 빨리 따라잡을 수 있습니다.
구글은 향후 몇 달 내로 구글 챗에 요약 기능을 도입할 예정입니다.
또한 구글 미트에 텍스트 변환 및 요약 기능을 추가해 여러분이 놓친 중요한 미팅을 따라잡을 수 있도록 준비 중입니다.
구글 미트의 시각적 개선사항
가상 공간에서 누군가와 함께 있고 싶은 순간을 떠올리는 분들을 위해 구글은 프로젝트 스타라인(Project Starline)을 통해 오디오 및 비디오 품질을 지속적으로 향상시키고 있습니다. 프로젝트 스타라인은 작년 I/O에서 처음 소개해드렸는데요. 이후 구글 사무실에서 테스트를 하며 피드백을 받고 미래를 위해 기술을 향상시켜 왔습니다. 그 과정에서 구글 미트에 지금 당장 적용할 수 있는 몇 가지를 확인할 수 있었습니다.
스타라인은 구글 미트에서 자동으로 이미지 품질을 향상시키기 위한 머신러닝 기반의 이미지 처리 기능 탄생에 영감을 주었습니다. 또한 모든 장치에서 작동하기 때문에 여러분이 어디에서 이용해도 최고의 모습을 보여줄 수 있습니다.
머신러닝 기반의 이미지 처리 기능은 구글 미트에서 이미지 품질을 자동으로 향상시킵니다.
또한 스튜디오 수준의 가상 조명이 구글 미트에 도입됩니다. 조명 위치와 밝기를 조정할 수 있어 어두운 방이나 창가에 앉아 있어도 잘 보이도록 지원합니다. 그동안 픽셀폰 및 몽크 스케일(Monk Scale)에서 이어왔던 리얼 톤(Real Tone)을 발전시켜 모든 사람이 실제 자신처럼 보일 수 있도록 테스트하고 있습니다.
지금까지 소개해드린 내용은 AI를 통해 더욱 유용하고 접근성이 높고 혁신적인 새로운 기능을 제공하고자 하는 구글의 노력 중 일부일 뿐입니다.
오늘 I/O에서 프라바카르 라그하반(Prabhakar Raghavan) 구글 SVP는 사람들이 검색에서 보다 직관적인 방식으로 유용한 정보를 찾도록 돕는 방법을 공유했습니다.
컴퓨팅을 통해 지식에 대한 접근성 개선
지금까지 더 나은 번역, 이미지 및 영상 전반에 걸친 향상된 검색 경험, 구글 지도를 통한 풍부한 세계 탐험 등 구글 미션 중 하나인 지식에 대한 접근성 향상을 위한 노력에 대해 소개했습니다.
이제는 컴퓨팅을 통해 지식에 더 쉽게 접근할 수 있는 방법에 대해 말씀드리고자 합니다. 구글은 그동안 흥미진진한 컴퓨팅 여정을 겪어왔고, 데스크톱에서 웹, 모바일, 웨어러블 및 앰비언트 컴퓨팅 등의 변화 과정을 거치며 지식이 일상 생활에서 더욱 유용하게 활용될 수 있도록 만들었습니다.
현재 기기들은 많은 실질적인 도움을 제공하지만, 그만큼 적응을 위해 많은 노력이 필요한 것도 사실입니다. 개인적으로 늘 사람이 컴퓨터에 적응하는 방식보다는, 컴퓨터가 사람에게 적응해야 한다고 생각해왔습니다. 구글은 이러한 관점을 기반으로 개선과 발전을 이루고자 지속적으로 노력하고 있습니다.
구글은 구글 어시스턴트를 통해 보다 자연스럽고 직관적인 컴퓨팅을 지원하기 위해 다음과 같이 노력하고 있습니다.
람다 2와 AI 테스트 키친
대화 응용 프로그램을 위한 생성적 언어 모델인 람다(LaMDA)와 AI 테스트 키친(AI Test Kitchen)의 데모
구글은 대화 능력을 향상시키기 위해 지속적으로 노력하고 있습니다. 대화와 자연어 처리는 모든 사람이 컴퓨터를 더 쉽게 이용할 수 있도록 하는 강력한 방법으로, 이를 구현하기 위한 핵심이 큰 언어 모델입니다.
작년에는 어떠한 주제에 대해서도 대화할 수 있는 언어 모델 ‘람다(LaMDA)’를 처음 소개했습니다. 그리고 오늘, 지금까지의 대화 AI 중 가장 발전된 ‘람다 2(LaMDA 2)’를 발표하게 되어 기쁩니다.
구글은 이용자에게 유용한 모델을 만들기 위한 시작 단계에 있으며, 이를 바로 잡아야하는 막중한 책임감을 느낍니다. 발전을 위해서는 기술을 경험하고 피드백을 제공할 사람들이 필요합니다. 우선 구글은 람다를 수천 명의 구글 직원에게 공개해 직접 기능을 체험해볼 수 있도록 했으며 이를 통해 상당한 품질 개선이 이루어졌고 부정확하거나 공격적인 응답을 줄일 수 있었습니다.
따라서 저희는 AI 테스트 키친(AI Test Kitchen)을 도입해 더 많은 이용자들과 함께 AI의 기능을 탐구할 수 있는 새로운 방법을 탐구해 보려 합니다. AI 테스트 키친 체험을 통해 여러분은 일상 생활에서 람다가 어떤 혜택을 가져다줄지 확인할 수 있습니다.
첫번째 데모인 "상상해보기(Imagine It)"에서는 람다가 이용자가 제공하는 창의적인 아이디어를 바탕으로 관련 설명을 제공할 수 있는 지를 확인할 수 있습니다. 아직 완성된 제품은 아니지만 람다의 가능성을 체험해볼 수 있습니다. 이용자 인터페이스 또한 매우 간단합니다.
예를 들어 소설을 쓰다가 영감을 주는 아이디어가 필요하다고 가정해보겠습니다. 등장인물 중 하나가 깊은 바다를 탐험하고 있을 수도 있겠습니다. 그럼 이 인물이 어떤 느낌이 드는지 물어볼 수 있습니다. 이 때 람다는 마리아나 해구의 한 장면을 묘사합니다. 심지어 관련 질문도 신속하게 만들어냅니다.
람다에게 그곳에 어떤 종류의 생물들이 살고 있는지 상상해보라고 질문할 수도 있습니다. 한가지 참고할 부분은 잠수함이나 생체발광과 같은 특정 주제에 대해 직접 프로그래밍하지 않았음에도 불구하고 람다는 훈련 데이터로부터 이러한 개념들을 합성했다는 것입니다. 때문에 ‘토성의 고리’부터 ‘아이스크림으로 만들어진 행성’까지 거의 모든 주제에 대해 물어볼 수 있습니다.
언어 모델이 하나의 주제에 대해 머물러 있도록 하는 것은 굉장히 어려운 일입니다. 여러분들이 학습하는 과정을 돌아보신다면 이해에 도움이 되실 것 같습니다. 우리는 기기가 여러분이 갖는 다양한 호기심을 수용하고 탐색할 수 있을 만큼 충분히 개방적이길 원하지만, 다른 한편으로는 하나의 주제에 집중할 수 있는 능력도 기대합니다. 우리의 두 번째 데모는 람다가 어떻게 한 주제에 집중하고 있는지를 테스트합니다.
이번 데모에서는 우리는 개에 대한 주제에 집중할 수 있도록 하는 모델을 준비했습니다. 우선 대화를 시작하는 질문을 만드는 것부터 다뤄 볼까요. “왜 개들이 그렇게 물건 가져오기 놀이를 좋아하는지 궁금해한 적이 있습니까?” 그리고 여러분이 후속 질문을 한다면, 몇 가지 관련 세부 사항들과 함께 답을 얻을 수 있을 것입니다. 예를 들어, “꽤 흥미롭습니다. 이것은 후각과 보물찾기와 관련이 있을 수도 있습니다” 이렇게 말입니다.
원하는 것 그 무엇이든 물어볼 수 있습니다. 후각이 어떻게 작용하는지 더욱 자세한 정보를 궁금해할 수도 있죠. 이에 대한 독특한 응답도 받을 수 있습니다. 당신이 무엇을 물어보든지 람다는 개에 대한 대화를 이어가려고 할 것입니다. 당신이 크리켓에 대한 이야기를 시작한다면(그리고 아마도 그럴 가능성이 높죠), 람다 모델은 재치있는 방법으로 개에 대한 대화를 다시 시작할 것입니다.
대화 주제를 유지하도록 하는 이 까다로운 과제는 언어 모델을 사용하여 유용한 응용 프로그램을 구축하기 위한 중요한 연구 영역입니다.
이러한 경험은 언어 모델이 언젠가는 플래닝, 세계에 대한 학습 등과 같은 일에 도움이 될 수 있는 가능성을 보여줍니다.
물론, 이러한 모델이 실제로 유용하게 활용되기 위해서는 그 전에 해결해야 할 중요한 과제가 있습니다. 비록 안전성은 향상되었지만, 모델이 부정확하거나 부적절하거나 불쾌한 반응을 일으킬 수 있습니다. 이것이 바로 이용자들이 직접 문제를 보고할 수 있도록 피드백을 요청드리는 기능을 앱에 도입한 이유입니다.
구글은 자사의 AI 원칙에 따라 이 모든 작업을 수행할 것입니다. 반복적으로 프로세스를 점검하고, 원칙을 모든 과정에 반영할 것입니다. 향후 몇 달 동안 액세스를 개방하고, AI 연구원 및 사회 과학자에서 인권 전문가에 이르기까지 광범위한 이해 관계자와 신중하게 피드백을 받아 평가하고 점검할 것입니다. 그리고 이 피드백들을 람다 차기 버전에 통합, 반영하고 연구 결과 역시 적극 공유할 예정입니다.
시간이 지남에 따라 AI 테스트 키친에 AI의 다른 새로운 영역을 계속 추가할 계획입니다. 자세한 내용은 AI 테스트 키친에서 확인할 수 있습니다.
발전하는 AI 언어 모델
람다 2(LaMDA 2)에는 굉장한 대화 기능이 탑재되어 있습니다. 자연어 처리와 AI의 다른 측면을 탐구하기 위해서 구글은 최근 새로운 모델인 PaLM(Pathways Language Model)을 발표했습니다. PaLM은 현재 구글에서 가장 큰 모델로 5,400억 개의 매개변수로 훈련되었습니다.
PaLM은 문자에서 코드를 생성하거나 수학 단어 문제에 답을 하거나 또는 농담을 설명하는 등 수많은 자연어 처리 작업에서 혁신적인 성과를 보여주고 있습니다.
규모 역시 큰 폭으로 확장되었습니다. 대규모 처리능력이 ‘생각의 연결 고리 프롬프팅(chain-of-thought prompting)’이라고 불리는 새로운 기술과 결합한다면 그 결과는 유망합니다. 생각의 연결 고리 프롬프팅은 이용자가 다단계의 문제를 일련의 중간 단계로 설명할수 있도록 도와줍니다.
추론이 필요한 수학 단어 문제를 예로 들어보겠습니다. 일반적인 모델 사용 방법은 질문과 답을 알려주고 질문을 시작하는 것입니다. ‘5월에는 몇 시간이 있나요?’라는 질문의 경우, 해당 모델은 제대로 이해하지 못했습니다.
생각의 연결 고리 프롬프팅에서는 한 쌍의 질문과 답을 제공하지만, 이번에는 그 답이 도출된 방법에 대한 설명을 제공해보겠습니다. 문제 풀이 방식을 이해할 수 있도록 마치 선생님이 단계별 풀이법을 알려주었을 때와 비슷합니다. 이제, 모델에게 ‘5월에는 몇 시간이 있나요?’라는 질문을 다시 하거나 혹은 연관된 다른 질문을 한다면, 이번에는 올바른 답변을 하고 작동한다는 것을 보여줄 것입니다.
생각의 연결 고리 프롬프팅으로 보다 개선된 추론 및 정확한 답변으로 이어집니다.
생각의 연결 고리 프롬프팅은 정확도를 크게 향상시킵니다. 이는 수학 관련 문제를 포함한 추론 벤치마크 전반에 우수한 성과를 불러옵니다. 모델이 학습하는 방식을 바꾸지 않고도 이를 해낼 수 있습니다.
PaLM은 상당한 능력을 갖추고 있으며 더 많은 것을 해낼 수 있습니다. 예를 들어 이용자가 오늘날 웹상에서 잘 사용되지 않는 언어를 사용하는 사람일 경우 정보를 찾기 매우 어려울 것입니다. 이용자를 더욱 좌절시키는 것은 그들이 찾는 해답이 웹 이외의 곳에 존재한다는 것입니다. PaLM은 모든 사람이 더 쉽게 지식을 접할 수 있는 엄청난 가능성을 제시하는 새로운 접근 방식을 제공합니다.
25억 명의 사람들이 사용하는 벵골어로 질문에 답하는 데에 도움이 될 수 있는 예시를 보여드리겠습니다. 이전과 마찬가지로 모델에 벵골어와 영어 답변이 모두 포함된 두 가지의 예시를 제공합니다.
이제 벵골어로 “방글라데시의 국가는 뭐야? ”라고 질문할 경우, 아마 PaLM은 “아마르 쇼나르 방라(Amar Sonar Bangla)”라고 답할 것입니다. 이는 해당 콘텐츠가 이미 벵골어로 존재하고 있기 때문에 전혀 놀라운 것이 아닙니다.
이용자는 또한 “뉴욕에서 가장 인기 있는 피자 토핑이 뭐야?”와 같이 방글라데시와 다소 관련이 없는 정보에 대해서도 질문을 던질 수 있습니다. 비록 제공된 답변이 뉴욕 시민들 사이에서 얼마나 정확한 것인가에 대한 논쟁을 불러일으킬지라도 해당 모델은 다시금 방글라데시어로 질문에 대한 정확한 답변을 제공할 것입니다.
PaLM의 가장 인상적인 부분은 해당 모델이 벵골어와 영어 사이에 병렬구조의 문장을 보여준 적이 없다는 것입니다. 질문에 대해 대답하거나 번역하는 것을 정식으로 배운적이 없음에도 말이죠! 또한 해당 모델은 벵골어를 사용해서 질문에 정확한 답변을 전달하는 것에 필요한 모든 기술을 보유하고 있습니다. 구글은 이러한 기술을 더 많은 언어, 그리고 더욱 복잡한 기술로 확장할 수 있습니다.
구글은 해당 언어 모델이 가진 잠재력을 굉장히 긍정적으로 보고 있습니다. 이에 구글은 해당 모델을 통해 언젠가 구글 검색을 포함한 자사의 모든 서비스에서 이용자가 어떤 언어를 사용하던 그들의 질문 혹은 더 많은 주제들에 대해 답변을 제공하고 더 넓은 지식에 다가갈 수 있기를 희망합니다.
세계 최대 규모의 공개적으로 이용가능한 머신러닝 허브
오늘 구글이 공유한 발전은 자사 인프라에 대한 지속적인 혁신 덕분에 가능했습니다. 이러한 혁신의 일환으로 구글은 최근 미국 전역의 데이터 센터와 사무실에 약 95억 달러 (한화로 약 12조 원)를 투자할 계획이라고 발표했습니다.
당사가 최근 건설한 최첨단 데이터 센터 중 하나는 오클라호마주 메이스 카운티에 위치해 있습니다. 구글 클라우드 고객들 모두가 공개적으로 사용 가능한 세계 최대 규모의 머신러닝 허브를 선보이게 돼 기쁩니다.
오클라호마주 메이스 카운티에 위치한 구글의 최첨단 데이터 센터
이 머신러닝 허브는 8개의 클라우드 TPU v4 팟(Pod)을 가지고 있으며, 구글의 가장 큰 신경 모델에 동력을 공급하는 동일한 네트워킹 인프라를 기반으로 맞춤 제작되었습니다. 총 9엑사플롭스(exaflops)에 가까운 컴퓨팅 성능을 제공하여 고객이 복잡한 모델과 워크로드를 실행할 수 있는 전례 없는 능력을 제공합니다. 우리는 이것이 의료에서부터 물류, 지속 가능성에 이르는 많은 분야에서 혁신을 촉진할 수 있기를 바랍니다.
지속 가능성 측면에서 이 머신러닝 허브는 이미 90%의 무탄소 에너지로 운영되고 있습니다. 이를 통해 2030년까지 전 세계적으로 모든 데이터 센터와 캠퍼스를 24시간 365일 무탄소 에너지로 운영하는 최초의 주요 기업이 되겠다는 목표를 달성할 수 있게 되었습니다.
데이터 센터에 투자하는 동안에도 더 많은 프로세싱이 장치에서 지역적으로 처리될 수 있도록 모바일 플랫폼에서 혁신하기 위해 노력하고 있습니다. 우리의 맞춤형 시스템온칩인 구글 텐서(Google Tensor)는 이러한 방향에서 중요한 단계였습니다. 이미 픽셀 6 및 픽셀 6 프로에 적용 중이며, 지금까지 선보인 최고의 음성 인식을 비롯한 AI 기능을 휴대폰에서 바로 사용할 수 있습니다. 또한 이러한 장치를 보다 안전하게 만드는 데 있어 큰 진전이라고 할 수 있습니다. 안드로이드의 프라이빗 컴퓨터 코어(Private Computer Core)와 결합하여 데이터 기반 기능을 장치에서 바로 실행할 수 있기 때문에 이용자의 개인 정보가 보호됩니다.
사람들은 크고 작은 순간에도 도움을 받기 위해 매일 구글의 제품을 찾습니다. 이를 가능하게 하는 핵심은 각 단계마다 개인정보를 보호하는 것입니다. 기술이 점점 더 복잡해짐에 따라 당사는 기본적으로 안전하고, 설계단계부터 개인 정보가 보호되며, 이용자가 제어할 수 있는 제품을 통해 전 세계 어느 회사보다도 더 많은 이용자들을 온라인 상에서 안전하게 보호하고 있습니다.
또한, 구글은 오늘 안드로이드와 같은 플랫폼에 대한 업데이트 사항을 공유하였습니다. 안드로이드는 스마트폰과 TV, 자동차, 워치와 같은 연결된 장치를 통해 수십억 명의 사람들에게 접근성, 연결성 및 정보를 제공하고 있습니다.
그리고 앰비언트 컴퓨팅을 염두에 두고 제작된 픽셀 6a, 픽셀 버즈 프로, 구글 픽셀 워치, 픽셀 7, 그리고 픽셀 태블릿을 포함한 새로운 픽셀 포트폴리오도 소개했습니다. 구글은 여러분을 위해 함께 시너지를 내는 새로운 제품군을 소개하게 되어 기쁩니다.
차세대 컴퓨팅 프론티어: 증강현실
오늘 구글은 컴퓨터를 사용하는 방법과 지식에 접근하는 방식을 변화시키는 모든 기술에 대해 이야기했습니다. 장치들은 이용자가 필요로 하는 그 시간과 장소에서 작업을 보다 쉽게 할 수 있게 해주는 대화형 인터페이스로 원활하게 작동합니다.
미래에는 이 모든 것을 더 확장할 수 있는 잠재력을 가진 컴퓨팅의 새로운 프론티어가 존재하며, 이것이 바로 증강현실(AR)입니다. 구글은 그동안 증강현실에 대한 막대한 투자를 진행해왔습니다. 구글 렌즈(Google Lens)에서부터 다중검색(multisearch)과 장면탐색(scene exploration), 구글 지도의 실시간 뷰 및 몰입형 뷰(Live and immersive views in Maps)까지 많은 구글 제품에 증강현실을 구축해왔습니다.
이런 증강현실 기능들은 이미 휴대폰에서 유용하게 사용되고 있으며 이용자가 해당 기능들을 현실에서 기술의 방해없이 사용할 수 있을 때 마술은 현실이 될 것입니다.
증강현실의 잠재력, 즉 현실 세계의 실제 삶에서 중요한 것에 집중해 시간을 보낼 수 있게 하는 능력은 구글이 증강현실에 기대하는 이유입니다. 현실 세계는 상당히 놀라운 곳이기 때문입니다!
현실 세계에 맞게, 그리고 현실 세계에서 벗어나지 않는 구축 방식으로 설계하는 것이 중요합니다. 증강현실은 이를 달성할 수 있는 새로운 방법을 제시합니다.
언어를 예로 들어보겠습니다. 언어는 서로를 연결하는 데 가장 기본적이지만 다른 언어를 사용하는 사람을 이해하거나 청각장애 혹은 난청이 있는 경우 대화를 따라가는 것은 정말 어려운 일이 될 수 있습니다. 구글에서 테스트 중인 초기 프로토타입 중 하나에 번역 및 전사 기술을 가져와 이용자의 눈 앞에 전달했을 때 어떤 일이 발생하는지 확인해 봅시다.
다른 사람과 자연스럽게 이야기할 때 느끼는 즐거움을 사람들의 얼굴에서 확인할 수 있습니다. 서로를 이해하기 위한 그 연결의 순간. 이것이 구글이 지식과 컴퓨팅에 집중하는 이유이며, 도움을 주기 위해 만들어진 제품과 함께 매일 노력하는 이유입니다.
매년 구글은 우리의 미션을 완수하는 데 조금씩 다가가고 있습니다. 아직도 가야할 길은 많이 남아 있으며, 앞으로의 여정에 대해서도 큰 기대를 하고 있습니다. 그리고 구글은 방금 확인하신 혁신들이 모여 그 미션을 완수하는 데 기여할 것이라고 긍정적으로 생각합니다. 오늘 참석해 주신 개발자와 파트너 및 고객 모두에게 감사드리며, 구글은 여러분 모두와 함께 미래를 만들어 나가길 기대합니다.
작성자: 순다 피차이(Sundar Pichai), 구글 및 알파벳 CEO