지난 몇년에 걸친 머신러닝(ML)의 발전상을 우리는 잘 알고 있습니다. 신경망 네트워크를 통해 구글 번역의 품질을 크게 향상시키고 구글 검색결과의 순위를 선정하며 구글 포토로 원하는 사진을 훨씬 간편하게 찾아볼 수 있게 되었습니다. 또한 머신러닝 덕분에 딥마인드(DeepMind)의 알파고 프로그램은 세계 최고의 바둑 기사 중 한 명인 이세돌을 이기고, 사람이 그린 것 같이 스케치하는 소프트웨어를 개발할 수 있었습니다.
이러한 성과를 거두기 위해서는 기본 머신러닝 모델을 학습시키고 학습된 모델을 실행(“추론”)하는 대규모 컴퓨팅 작업이 필수적입니다. 그래서 구글은 TPU를 개발함으로써 대규모 머신 러닝 컴퓨팅 작업을 지원하도록 했습니다. TPU는 기존에는 내부 컴퓨팅 작업에 사용되었으며 현재는 외부 컴퓨팅 작업까지 처리하고 있습니다.
구글 최초의 TPU는 머신러닝 모델을 빠르고 효율적으로 실행하여 문장을 번역하거나 바둑에서 다음 수를 결정할 수 있도록 개발되었지만 별도의 학습 과정을 거쳐야만 했습니다. 머신러닝 모델 학습은 모델 실행보다 훨씬 까다로운 작업입니다. 또한 정확도를 높이기 위해 사용 가능한 최적의 CPU와 GPU에서 며칠 또는 몇 주에 걸쳐 컴퓨팅 작업을 처리해야만 했습니다.
구글을 비롯한 IT 기업의 연구팀과 엔지니어링팀은 쉽게 이용할 수 있는 하드웨어에서 머신러닝 학습을 스케일링하는 성과를 거두었습니다. 하지만 머신러닝에 대한 기대치를 충족하기에는 충분치 않았기 때문에 구글은 병목 현상을 해소하고 전반적인 성능을 극대화할 수 있는 완전히 새로운 머신러닝 시스템을 개발했습니다. 이 시스템의 핵심은 바로 오늘 발표한 차세대 TPU입니다. 차세대 TPU는 머신러닝 모델의 학습 및 실행이 모두 가능합니다.
![]() |
구글의 새로운 클라우드 TPU는 머신 러닝 모델을 학습시키고 실행할 수 있도록 최대 180테라플롭(teraflop)의 성능을 제공합니다. |
새로운 TPU 기기는 최대 180테라플롭에 달하는 부동 소수점 연산 성능을 제공합니다. TPU는 따로 사용하는 경우에도 뛰어난 성능을 보이지만 함께 사용하는 경우 더 좋은 성능을 보이도록 설계되었습니다. 각 TPU에는 맞춤 고속 네트워크가 포함되어 있어 “TPU 팟(TPU pod)”이라고 하는 머신러닝 슈퍼컴퓨터를 구축할 수 있습니다. TPU 팟은 차세대 TPU 64개를 갖추고 있으며, 최대 11.5 페타플롭의 연산 성능을 제공하기 때문에 대규모 머신러닝 모델 하나를 학습시키는 데 필요한 시간이 단축됩니다. 엄청난 컴퓨팅 작업을 처리해야 하는데도 말이죠.
구글은 TPU 팟 사용을 통해 이미 훈련 시간에 큰 개선이 있는 것을 확인했습니다. 구글의 대규모 번역 모델을 훈련시키는데 기존 최고급 상용 GPU 32개를 사용했을 때는 하루가 꼬박 걸렸지만 TPU 팟의 1/8만 사용해도 같은 정확도로 훈련시키는데 반나절 밖에 걸리지 않습니다.
![]() |
차세대 TPU 64개가 장착된 “TPU 팟”은 머신러닝 속도가 최대 11.5페타플롭(petaflop)에 달합니다. |
클라우드 TPU 도입
구글 컴퓨트 엔진에 새로운 TPU를 장착한 클라우드 TPU는 형태와 규모에 구애받지 않고 모든 가상 머신에 연결하여 스카이레이크(Skylake) CPU, 엔비디아(NVIDIA) GPU 같이 다른 유형의 하드웨어와 함께 사용할 수 있습니다. 사용자는 깃허브(GitHub)에서 가장 인기 있는 오픈 소스 머신 러닝 프레임워크인 텐서플로(TensorFlow)로 클라우드 TPU를 프로그래밍할 수 있습니다. 또한 CPU, GPU 또는 클라우드 TPU에서 최소한의 코드 변경만으로도 손쉽게 머신러닝 모델을 학습시킬 수 있는 고급 API도 도입할 예정입니다.
클라우드 TPU를 사용하면 최첨단 머신 러닝 엑셀러레이터와 프로덕션 인프라를 직접 통합하고, 초기 자본 지출 없이도 신속한 주문형 컴퓨팅 성능을 활용할 수 있습니다. 속도가 빠른 머신 러닝 엑셀러레이터의 경우 주변 스토리지 시스템 및 네트워크에 대한 요구사항이 까다롭기 때문에, 구글은 사용자가 실제 프로덕션 데이터를 사용하여 강력한 머신러닝 모델을 신속하게 학습시킬 수 있도록 전체 클라우드 인프라를 최적화하고 있습니다.
구글의 목표는 가능한 최적의 머신러닝 시스템을 사용자가 처음부터 끝까지 구축할 수 있도록 지원하는 것입니다. 클라우드 TPU로 인해 여러 머신 러닝 애플리케이션을 활용하는 일이 수월해지겠지만, 구글은 사용자가 언제든 특정 사용 사례에 가장 적합한 엑셀러레이터를 선택할 수 있도록 구글 클라우드에서 다양한 하드웨어를 제공하기 위해 여전히 노력하고 있습니다. 예를 들어, 샤잠(Shazam)은 최근 발표를 통해 대부분의 음원 인식 워크로드를 구글 클라우드의 엔비디아 GPU로 마이그레이션하여 유연성을 확보하는 동시에 비용을 절감할 수 있었다고 밝혔습니다.
텐서플로 리서치 클라우드(TensorFlow Research Cloud) 도입
최근 머신러닝이 발전할 수 있었던 것은 상당 부분 전 세계 산업계 및 학계 연구원들의 전례 없는 개방형 협업 덕분입니다. 하지만 분야 최고의 연구원들 중 다수가 필요한 컴퓨팅 성능을 충분히 이용하지 못하고 있습니다. 구글은 되도록 많은 연구원들을 돕고 개방형 머신러닝 연구를 더욱 가속화하기 위해, 머신러닝 연구원들이 텐서플로 리서치 클라우드를 통해 클라우드 TPU 1,000개를 무료로 사용할 수 있도록 지원할 예정입니다.
가입하여 자세한 내용을 알아보세요
머신러닝 모델 학습 및 대규모 데이터세트의 일괄 처리 시간을 단축하거나 보다 강력한 머신러닝 모델을 사용하여 프로덕션 환경에서 실시간 요청을 처리하고 싶으신 분은 지금 가입하여 곧 선보일 클라우드 TPU 알파(Cloud TPU Alpha) 프로그램에 대해 자세히 알아보세요. 연구원으로서 머신러닝의 가능성을 넓히고 연구 결과를 다 함께 공유하고 싶으시면 가입하여 텐서플로 리서치 클라우드에 대해 자세히 알아보세요. 또한 구글 클라우드를 통해 전체 TPU 팟에 액세스하려면 요구사항을 구글에 알려주세요.
작성자: 제프 딘(Jeffrey Dean) 구글 시니어 펠로우,
우르스 회즐(Urs Hölzle) 구글 클라우드 인프라스트럭처 선임부사장