▲ 이미지 출처: Cerebras

컴퓨터 칩의 역사는 극도의 소형화에 대한 스릴 넘치는 이야기이다. 작을수록 우리가 알고 있는 디지털 세계가 탄생한 추세이다. 그렇다면 도대체 왜 코스를 뒤집고 칩을 훨씬 더 크게 만들고 싶을까? 음, iPad에 iPad 크기의 칩을 사용할 특별한 이유는 없지만, 이러한 칩은 인공 지능이나 물리적 세계의 시뮬레이션과 같은 보다 구체적인 용도를 위한 천재임이 입증될 수 있다. 적어도 그것은 세계에서 가장 큰 컴퓨터 칩 제조업체인 Cerebras가 바라는 바이다.

 

Cerebras Wafer-Scale Engine은 어떤 식으로 든 자를 수 있다 이 칩은 측면이 8.5인치이고 1조 2천억 개의 트랜지스터를 수용한다. 다음으로 큰 칩인 NVIDIA의 A100 GPU는 1인치 크기에 540억 개의 트랜지스터를 가지고 있다. 전자는 새롭고 대부분 테스트되지 않았으며 지금까지 유일무이한 것이다. 후자는 사랑받고 대량 생산되었으며 지난 10년 동안 AI 및 슈퍼컴퓨팅의 세계를 장악했다.

 

그래서 골리앗이 데이비드의 대본을 뒤집을 수 있을까? Cerebras는 이를 찾아야하는 임무를 수행하고 있다.

  

AI를 넘어선 큰 칩

작년에 Cerebras가 스텔스에서 처음 나왔을 때 회사는 딥러닝 모델의 훈련 속도를 크게 높일 수 있다고 말했다. 그 이후로 WSE는 소수의 슈퍼컴퓨팅 연구소로 들어가 회사의 고객들이 속도를 높이고 있다. 이러한 연구소 중 하나인 National Energy Technology Laboratory는 AI를 넘어서 할 수 있는 일을 찾고 있다. 

그래서 최근의 실험에서 연구원들은 CS-1이라고 불리는 기숙사 방 미니 냉장고 크기의 올 인원 시스템에 수용된 칩을 유체역학 시뮬레이션에서 슈퍼컴퓨터에 맞췄다. 유체의 움직임을 시뮬레이션 하는 것은 일기예보 및 비행기 날개 설계와 같은 복잡한 문제를 해결하는 데 유용한 일반적인 슈퍼컴퓨터 응용 프로그램이다.

 

실험은 Cerebras의 Michael James와 NETL의 Dirk Van Essendelft가 이끄는 팀이 작성한 사전 인쇄 문서에 설명되어 있으며 이번 주 슈퍼 컴퓨팅 컨퍼런스 SC20에서 발표되었다. 연구팀은 CS-1이 비슷한 작업을 수행하는 데 Joule 2.0 슈퍼컴퓨터보다 약 200배 빠른 속도로 발전소에서 연소 시뮬레이션을 완료했다고 말했다.

 

CS-1은 실제로 실시간보다 빠르다. Cerebrus가 블로그 게시물에 썼 듯이 "물리법칙이 동일한 결과를 생성하는 것보다 더 빨리 미래에 일어날 일을 말할 수 있다." 

 

연구원들은 CS-1의 성능이 CPU와 GPU 수와 비교할 수 없다고 말했다. 그리고 CEO이자 공동 창립자인 Andrew Feldman은 VentureBeat에 "슈퍼컴퓨터의 크기에 상관없이"사실이라고 말했다. 어떤 시점에서 Joule과 같은 슈퍼컴퓨터를 확장해도 더 이상 이런 종류의 문제에서 더 나은 결과를 얻을 수 없다. 이것이 Joule의 시뮬레이션 속도가 총 86,400개 코어의 일부인 16,384개 코어로 최고치를 기록한 이유이다.

 

두 기계를 비교하면 포인트 홈이 된다. Joule은 세계에서 81번째로 빠른 슈퍼컴퓨터이며 수십 개의 서버랙을 차지하고 최대 450kW의 전력을 소비하며 구축하는 데 수천만 달러가 필요했다. 이에 비해 CS-1은 서버 랙의 1/3에 맞고 20kW의 전력을 소비하며 수백만 달러에 판매된다.

 

작업이 틈새(하지만 유용함)이고 CS-1에 잘 맞는 문제이지만 여전히 매우 놀라운 결과이다. 그래서 그들은 그것을 어떻게 뽑았을까? 모든 것이 디자인에 있다.

  

전송시간 단축

컴퓨터 칩은 웨이퍼라고하는 큰 실리콘 조각에서 생명을 시작한다. 여러 개의 칩이 동일한 웨이퍼에 에칭 된 다음 웨이퍼가 개별 칩으로 절단된다. WSE도 실리콘 웨이퍼에 식각되지만 웨이퍼는 단일 작동 장치로 그대로 유지된다. 이 웨이퍼 스케일 칩에는 거의 400,000개의 프로세싱 코어가 포함되어 있다. 각 코어는 자체 전용 메모리와 인접한 4개의 코어에 연결된다.  

많은 코어를 단일 칩에 배치하고 자체 메모리를 제공하는 것이 WSE가 더 큰 이유이다. 이 경우에는 더 나은 이유이기도 하다.

 

대부분의 대규모 컴퓨팅 작업은 대규모 병렬 처리에 의존한다. 연구원들은 수백 또는 수천 개의 칩에 작업을 배포한다. 칩은 함께 작동해야 하므로 지속적으로 통신하고 정보를 주고받는다. 정보가 계산을 수행하는 프로세서 코어와 결과를 저장하기위한 공유 메모리 사이에서 이동함에 따라 유사한 프로세스가 각 칩 내에서 발생한다.

 

모든 비즈니스를 종이로 처리하는 오래된 회사와 조금 비슷하다. 이 회사는 택배를 사용하여 도시 전역의 다른 지점 및 기록 보관소에서 문서를 보내고 수집한다. 배달원은 도시를 통과하는 최적의 경로를 알고 있지만 여행은 지점과 기록 보관소 사이의 거리, 배달원의 최고 속도 및 도로에 다른 배달원이 몇 명인지에 따라 결정되는 최소한의 시간이 걸린다. 요컨대, 거리와 교통량이 상황을 느리게 만든다.

 

이제 회사가 새롭고 반짝이는 마천루를 지었다고 상상해보자. 모든 지점이 새 건물로 옮겨지고 모든 작업자는 사무실에 서류를 보관할 수 있는 작은 서류함을 갖게 된다. 이제 필요한 모든 문서를 사무실을 건너거나 복도를 지나 이웃 사무실로 이동하는 데 걸리는 시간 내에 저장하고 검색할 수 있다. 정보 출퇴근은 거의 사라졌다. 모든 것이 한 집에 있다.

 

Cerebras의 메가 칩은 그 마천루와 약간 비슷하다. 특별히 맞춤화 된 컴파일 소프트웨어를 통해 정보를 전송하는 방식은 수많은 기존 칩을 네트워크로 연결해야 하는 기존 슈퍼컴퓨터에 비해 훨씬 효율적이다. 

 

펼쳐지는 세계 시뮬레이션 

칩이 웨이퍼에 들어갈 만큼 작은 문제만 처리할 수 있다는 점은 주목할 가치가 있다. 그러나 이러한 문제는 실시간으로 고 충실도 시뮬레이션을 수행할 수 있는 기계의 기능으로 인해 매우 실용적인 응용 프로그램이 있을 수 있다. 예를 들어, 저자는 이론적으로 기계가 비행 갑판에 착륙하려는 헬리콥터 주변의 공기 흐름을 정확하게 시뮬레이션하고 프로세스를 반 자동화할 수 있어야한다고 지적한다. 이는 기존 칩으로는 불가능했던 일이다.

 

또 다른 기회는 시뮬레이션을 입력으로 사용하여 칩에 있는 신경망을 훈련시키는 것이다. 흥미롭고 관련 사례에서 Caltech 머신러닝 기술은 유체역학을 시뮬레이션하기 위해 여기에서 작동하는 동일한 종류의 편미분 방정식을 푸는 데 1,000배 더 빠른 것으로 입증되었다.

 

그들은 또한 칩의 개선(및 이와 유사한 다른 제품이 도착하면)이 달성할 수 있는 한계를 밀어낼 것이라는 점에 주목한다. 이미 Cerebras는 2조 6천억 개의 트랜지스터, 850,00개의 코어, 두 배 이상의 메모리를 갖춘 차세대 칩 출시를 예고했다.

 

물론 웨이퍼 스케일 컴퓨팅이 실제로 성공했는지 여부는 여전히 남아 있다. 아이디어는 수십 년 동안 존재했지만 Cerebras는 그것을 진지하게 추구한 최초의 기업이다. 분명히 그들은 유용하고 경제적으로 문제를 해결했다고 믿는다.

 

다른 새로운 아키텍처도 연구실에서 추구되고 있다. 예를 들어 멤리스터 기반의 신경형 칩은 처리와 메모리를 개별 트랜지스터와 같은 구성 요소에 넣어 뇌를 모방한다. 물론 양자컴퓨터는 별도의 차선에 있지만 유사한 문제를 해결한다.

 

이러한 기술 중 하나가 결국 모든 것을 지배하게 될 수 있다. 또는 이것은 상황에 따라 각각을 최대한 활용하기 위해 모두 함께 꿰매어 진 기괴한 급진적 칩 퀼트로 컴퓨팅이 쪼개 질 수 있다.

 

입력 : 2020.11.24 00:25    출처 : https://singularityhub.com/2020/11/22/the-trillion-transistor-chip-that-just-left-a-supercomputer-in-the-dust/
ⓒ blockchainai.kr 무단 전재 및 재배포 금지
  • 트위터
  • 페이스북
  • 카카오톡보내기
메일 보내기 닫기
보내는 사람
보내는 사람 메일
받는 사람 메일
제목
메세지