HBM이라는 단어가 대중의 관심 단어로 떠오르기 시작한 2023년. 그 후 일년이 지난 지금, 우리는 이 새로운 시대가 만들어내고 있는 시대 변화를 오롯이 체감하고 있다. 예를 들면 헤테로지니어스 컴퓨팅(Heterogeneous Computing, 이종 컴퓨팅) 시대로의 전환이 대표적이다. 앞으로 우리가 목도하게 될 AI반도체 시장의 변화를 메모리반도체의 관점에서 정리해 보자면 ‘가치 변화’와 ‘위상 변화’, 크게 이 두 가지 관점에서 정리해 볼 수 있다.
제품이 *커머디티화(commoditization)되며 어느덧 주인공 자리에서 내려오고 있던 메모리반도체가 특화되며 더 높은 가격을 부여받게 되는 가치의 변화. 그리고 로직반도체 중심의 시스템 구조를 완성하는 하나의 주변 요소 정도로 인식되어 가던 메모리반도체가 다시 시스템의 중심으로 올라서게 되는 위상의 변화가 각각 그것이다.
*커머디티화(commoditization): 제품의 일반화 또는 평준화, 동일화
이 중 메모리반도체의 가치 변화에 대한 부분은 이미 많은 전문가들 사이에서 다뤄진 부분이기도 하고 기업들의 실적 발표에서 보이는 숫자 변화로도 쉽게 체감할 수 있는 부분이다. 이에 비해 위상 변화에 대한 부분은 그 의미가 가진 중요성에 비해 제대로 조망되지 못하고 있다. 메모리반도체가 다시 시스템의 중심으로 올라서게 되는 이 변화를 정확히 이해하기 위한 첫걸음은 AI 연산을 위한 방법론의 최근 동향을 이해하는 것에서 시작한다.
.
이종접합과 무한반복의 워크로드
AI 연산의 핵심은 무한 반복의 워크로드를 어떻게 효과적으로 처리할 수 있느냐에 있다. 엔비디아의 GPU가 시장의 선택을 받게 된 것은 GPU가 가진 병렬처리 구조가 반복적인 워크로드를 처리하기에 가장 적합한 방법이었기 때문이었고, GPU 기반의 가속기들 중 가장 앞선 성능을 가지고 있었기 때문이다.
다만 최근 시장에서는 새로운 해답들이 계속해서 등장하고 있고, 향후 이 AI반도체들이 GPU 중심에서 CPU와 GPU, 혹은 CPU와 ASIC이 결합된 형태의 새로운 구조로 변화를 앞두고 있다는 점을 주목해 볼 필요가 있다. 이른바, 헤테로지니어스 컴퓨팅(Heterogeneous Computing)이란 단어로 설명되는 AI반도체 시장의 진화 방향이 바로 그것이다.
기본적으로 이와 같은 변화가 일어나는 배경에는 AI시대의 본격적인 개화 이후, 이 AI 워크로드에 양적 확장(Quantitative Expansion)을 넘어, 범위 확장(Scope Expansion)이 일어났기 때문이다. 즉, 단순히 반복 연산 양이 늘어나는 것을 넘어, 다양한 종류와 성격으로 다변화되고 있다는 것이다. 이러한 흐름 속에 GPU와 CPU가 하나의 보드 안에 내장된 형태의 이종접합 솔루션들이 제안되고 있다.
GPU는 ‘전용성’이란 단어로, CPU는 ‘범용성’이란 단어로 설명이 가능하다. 단순 반복 연산에 아주 강력한 전용성을 보여줬던 GPU에 의해 설 곳을 잃었던 CPU가 다변화된 워크로드를 처리하기 위한 용도로 다시 재조명 받고 있는 것이다. 문제는 이 이종의 로직반도체를 활용하는 것이 현재 구조상으로는 비효율을 야기한다는 점이다.
우선 AI플랫폼에서 활용되고 있는 연산 가속기들의 경우, 복잡한 프로세스를 거친다. CPU와 GPU 간의 데이터 통신을 위해서는 CPU에 연결된 메인 메모리(주로 RDIMM, LRDIMM)에서 데이터를 가져와 다시 GPU에 연결된 메모리(주로 HBM)로 읽어 들이고, 이 데이터를 다시 GPU가 처리한 후에, GPU를 통해 메인 메모리로, 다시 메인 메모리에서 CPU로 전달되는 방식이다.
다만 현재는 GPU가 이 AI 연산의 대부분을 처리하고 있고, GPU간에는 별도의 캐싱 없이 데이터를 빠르게 공유할 수 있는 기술이 적용되어 있기 때문에 해당 문제가 크게 대두되고 있지는 않다. 하지만 워크로드의 다변화 현상이 특히 강하게 일어나고 있는 AI 추론 영역을 중심으로 서서히 이 이종 컴퓨팅 도입에 대한 요구가 거세지고 있다.
이를 해결하기 위해 AI 가속기 업계에는 CPU와 GPU 모듈을 하나의 기판에 통합하거나 더 나아가 CPU와 GPU가 다이 수준에서 하나의 메모리를 공유하는 등 다양한 구조의 솔루션을 제안하고 있다.
다만 전체 인프라는 이러한 수천, 수만 개의 액셀러레이터들이 모여 만들어지기 때문에 특정 보드 안에 탑재된 한 쌍의 CPU와 GPU 안에서의 개선만으로는 충분치 않다. 전체 인프라에 연결되어 있는 이 엄청난 수의 CPU와 GPU들을 보다 더 효율적으로 활용할 수 있는 개선 방안이 필요하다. 이 지점에서 다시 주목을 받게 되는 것이 메모리반도체다. 더 정확히는 로직반도체들과 연결되어 있는 계층 구조의 변화이다.
.
메모리의 위상 변화
폰 노이만 구조를 기반으로 발전해 온 현세대 시스템 구조는 대개 로직반도체의 하위계층에 D램과 스토리지로 이어지는 메모리반도체가 자리하게 된다. 연산과 저장, 다시 저장된 데이터를 로드해 연산으로 이어지는 연산 프로세스의 관점에서는 현시점에서 취할 수 있는 최선의 계층 구조이다.
문제는 하나의 단일 시스템이 아닌, 수많은 개별 서버를 모아 만들어지는 데이터센터나, 슈퍼컴퓨터 인프라에서는 이러한 계층 구조가 비효율을 가져온다는 것이다.
개별 워크로드의 관점에서는 당연히 연산 작업을 하는 로직반도체를 중심으로 메모리가 종속되어 있는 현재의 구조가 이상적이지만, 인프라는 이 전체 워크로드를 어떻게 효율적으로 처리할 수 있는지를 두고 설계되어야 한다. 현재 시스템상에서는 메모리가 로직의 하위 구조로 종속되어 있어, 워크로드를 최적의 효율로 배분하기 어렵다.
현재의 시스템은 각 로직이 개별 하부 메모리시스템을 가지고 있는 구조이다. 이러한 구조에는 몇 가지 문제점을 찾을 수 있는데, 하나의 로직에 메모리가 가득 차면 작업이 중단되고, 다른 로직의 여유 메모리는 활용되지 못하는 것이다. 이는 마치 중앙 물류 허브 없이 개별 배송센터들만 있는 물류 체계와 비슷하다. 한 배송센터의 창고가 가득 차면 그 센터는 더 이상 물건을 받을 수 없고 동시에 다른 배송센터들의 공간이 낭비된다. 이처럼 현재의 AI 인프라는 전체 시스템의 효율성을 떨어뜨리고 자원 관리가 어렵다는 문제를 가지고 있다.
구체적으로 현세대 AI 인프라들의 한계로 지적되는 것이 바로 메모리 용량의 한계이다. 공간 구성이나 I/O의 한계, 발열 등의 이유로 하나의 로직반도체와 직접 연결된 메모리의 크기는 한계값을 가진다. 이 때문에 한 번에 처리해야 할 데이터의 크기가 메모리의 크기를 벗어나는 순간 연산을 쪼개고 분할하고 다시 이것을 합치는 불필요한 프로세스가 더해지며 연산의 효율이 떨어진다.
두 번째는 분배의 한계이다. 개별 우체국들이 아무리 많은 창고를 가지고 있다고 한들, 그것이 옆 우체국의 창고 부족을 해소해 주기는 어렵다. 물론 AI 인프라 상에서는 고속의 데이터 이동이 가능하기 때문에 다른 서버의 리소스를 활용하는 것이 가능하지만, 그것이 가능하다는 이야기이지, 효율적이지는 않다는 것이다.
이러한 한계점들을 두고 우리가 꺼내 볼 수 있는 해결책은 물류에서처럼 AI 인프라에도 허브 개념을 도입하는 것이다. 이 개념이 바로 ‘메모리 풀링’이다.
메모리 풀링은 여러 개의 메모리를 하나로 묶어, 하나의 거대한 메모리 풀(Pool)을 만들고, 이 안에서 시스템이 필요한 만큼의 메모리를 가져다 쓰는 개념이다. 이를 통해 기본적으로 현재는 꿈꾸기 어려운 거대한 규모로 메모리 확장이 가능하다. 메모리 풀링의 또 다른 장점은 메모리 활용효율의 증대이다. 여러 개로 연산을 쪼개고 번번이 캐싱 작업을 해야 하는 이전의 수고로움이 사라진다. 하나의 거대한 풀 안에서 데이터가 캐싱되며 메모리가 개별적으로 나뉘어있던 분산 구조에서는 상상하기 어려울 만큼 높은 메모리 활용 효율을 달성할 수 있다.
아울러 이 메모리 풀링은 단순히 인프라 활용효율을 개선하는 것을 넘어, 로직반도체의 하부계층으로 종속되어 있던 메모리반도체가 시스템의 중심에 자리하게 되는 위상 변화를 기대하게 한다. CPU와 GPU 등의 로직반도체를 중심으로 설계되었던 현세대 시스템의 계층 구조가 메모리 중심의 계층 구조로 변화하고 있다는 것이다. 여기서 우리가 관심있게 살펴봐야 하는 것은 이와 같은 변화를 가능하게 하는 기술이다. 서로 다른 제조사들이 만든 CPU, GPU, 그리고 메모리를 상호 연결하기 위한 기술이 필요한데, 여기서 등장하는 단어가 바로 CXL이다.
.
CXL, 완벽한 상호 연결체계로의 진화
CXL(Compute Express Link)은 위에서 약술한 문제들을 포함해 CPU와 GPU, 그리고 그사이에 위치한 메모리시스템 간 데이터흐름의 비효율을 개선하기 위한 방안이다. CXL의 핵심은 이 흐름을 최적화할 수 있도록 하나의 일관된 프로토콜 체계를 갖추는 것에 있다. 현재 활용되고 있는 *인터커넥트(Interconnect) 기술이 PCIe이기 때문에, 흔히 CXL을 PCIe를 대체하는 성격의 기술로 설명하기도 하지만 실제로 CXL은 PCIe를 ‘대체’하는 것보다는, PCIe를 기반으로 만들어진 생태계를 ‘개선’하는 것에 더 가까운 개념이다.
* 인터커넥트(Interconnect): 각 부품 사이의 데이터 전송 속도와 대역폭을 최적화하는 기술
이 개선의 개념은 표준화라는 단어로도 설명이 가능한데, 표준화를 통해 CPU와 GPU는 물론이고, D램과 스토리지가 모두 일관된 프로토콜 안에서 직접적인 소통이 가능해지게 되는 것이다. 그 개념 중 하나가 ‘캐시 일관성’이다. CXL 프로토콜 하에서는 한 프로세서가 데이터를 변경할 때 다른 프로세서의 캐시 데이터가 함께 업데이트되도록 한다. 이를 통해 연결된 CPU 혹은 GPU들이 추가적인 캐싱작업 없이 마치 하나의 캐시를 사용하는 것처럼 작동할 수 있다.
이와 같이 CXL을 통해 동종의 로직반도체는 물론, CPU와 GPU 혹은 CPU와 ASIC등 이종의 로직반도체들도 모두 직접적인 소통이 가능하다. 로직을 넘어 D램과 스토리지 등의 메모리반도체들과도 역시 직접적인 소통이 가능해지는 완벽한 상호 연결 체계가 만들어진다.
CXL은 이처럼 이종접합으로의 진화를 완성하기 위한 핵심 기술이 됨과 동시에 CPU와 GPU를 넘어 D램과 스토리지로 이어지는 전체 계층 구조의 추가적인 변화를 예상케 한다. 앞서 설명한 메모리 풀링(Type 3)은 이 CXL이 가지고 올, 계층 구조의 변화 양태 중 하나이다.
2019년 관련 컨소시엄이 구성된 이후, CXL표준이 꾸준히 업데이트되어 오면서 작년 5월 CXL 3.0까지 표준이 제정되었다. 2019년 제정된 CXL1.1에서는 개별 로직반도체와 내부 메모리 간의 연결에 대한 협소적 표준에 머물렀으나, 2020년 CXL 2.0에서는 다수의 로직반도체들과 메모리풀이 연결되는 형태로 진화하였다. 작년 중순 제정된 CXL 3.0에서는 다수의 프로세서와 다수의 메모리풀을 다중 연결하는 형태로 미래 방향성을 제시하고 있다.
현재 반도체 업계는 해당 로드맵을 따라 상용화를 위한 작업에 한창이다. 특히 한국의 메모리 기업이 CXL 상용화를 최선두에서 이끌고 있다는 점이 인상적이다. 삼성전자는2021년 업계 최초로 CXL기반의 D램 기술을 개발한 데 이어, 2023년 5월에는 CXL2.0 표준 기반의 D램을 개발하였고, 올해는 CXL 2.0을 지원하는 CMM-D(CXL Memory Module DRAM) 제품을 출시하며 상용화에 속도를 높이고 있다.
한편, 로직반도체 분야에서도 이미 인텔과 AMD 양측의 서버용 제품이 모두 이 CXL을 지원하고 있다. 특히 CXL 컨소시엄을 주도해 온 인텔이 올해 6월 CXL2.0을 지원하는 시에라포레스트(제온6)를 내놓으며 CXL의 시대가 임박했음을 알렸다. 작년 기준으로는 이 CXL 표준을 지원하는 서버의 수가 10%에 불과했지만, 올해부터 급격한 보급이 이뤄질 것임을 기대하게 하는 또 하나의 배경이다.
물론 우려스러운 부분도 있다. CXL의 적용은 분명 로직반도체 하위 계층에 종속되어 있던 메모리반도체가 시스템의 중심으로 떠오르는 위상 변화를 기대하게 하지만, 한편으로는 CXL 도입을 통한 메모리 반도체 수요 감소의 문제가 제기되고 있다. 메모리 활용 효율이 증가하면, 그만큼 불용 부분에 대한 수요가 감소하게 된다는 것이 이러한 반론이 제기되는 배경이다.
.
CXL의 도입, 새로운 변화의 시작
과거 HBM 등장 시기에도 비슷한 고민이 있었다. 대개는 시기상조라거나 상용화하기에 어려울 것이란 회의론들이었다. 당시 회의론이 내세운 근거는 나름의 설득력이 있어 보였다. 복잡한 3D 스택 구조, 제조 공정의 난이도, 그로 인한 수율 감소, 추가되는 공정 프로세스들로 인해 잃게 되는 비트 생산량의 감소, 이어지는 매출의 잠식이 당시에는 너무도 치명적으로 느껴졌다.
2024년이 된 지금에 와서 그때의 회의론들은 복기해 보면, 그것이 그저 모두 기우였음을 잘 알 수 있다. 잃어버리는 것들만 보고 반대편에서 얻게 될 것들을 그때는 미처 계산하지 못했던 것이다. 관련해 우리가 복기해 볼 부분은 오늘날 시장이 CXL을 바라보는 관점도 그때 시장이 HBM을 바라보던 관점과 꽤나 닮아 있다는 점이다.
CXL의 도입은 기본적으로 기존에 사용하지 않았던 새로운 형태로 인프라를 재편해야 하는 것을 의미하고, 이것은 구축, 유지, 보수, 확장의 관점에서 새로운 챌린지를 야기한다. 이와 더불어 앞서 언급한 대로 실제 CXL의 보급이 현실화된다 해도 CXL이 인프라의 메모리 활용 효율을 증가시키는 동안 그만큼의 수요는 분명히 사라질 수 있다. 다만 그 위험 요소에 대해서는 이처럼 명확히 조망하되, CXL의 가능성을 조망하면서도 잃어버리게 되는 것들의 반대급부들, 다시 말해 그 반대편에서 만들어지는 기회들 역시 함께 계산해야 한다는 것이다.
또한 CXL의 도입은 기본적으로 수요자들로 하여금 인프라 투자를 두고 고민하게 만들었던 메모리 확장의 문제를 해결해 준다. 메모리가 로직반도체에 종속 된 현재, 인프라 시스템의 확장을 위해서는 로직반도체와 메모리반도체를 함께 업그레이드해야 하지만, CXL 2.0 이상의 플랫폼에서는 메모리 증설을 통해 추가적인 성능향상을 꾀할 수 있다. 90년대 우리가 486, 586 컴퓨터 업그레이드를 위해 가장 먼저 투자했던 것이 메모리였던 것과 같은 개념이다. 이처럼 CXL 도입의 시스템구조가 메모리를 중심으로 재편되는 것뿐만 아니라, 기업들의 인프라 증설과 확장에서 메모리가 최우선 순위가 되는 변화를 불러오게 될 것이다.
이처럼 새로운 시대는 모두가 익히 아는 것들 속에서 새삼스럽게 찾아온다. 그리고 CXL의 시대도 그렇게 찾아올 것이다. 메모리반도체 시장의 미래를 조망해 보고 싶은 이들이 있다면 CXL을 주목해 보는 것은 어떨까? 확실한 것은 그 이야기들 속에서 AI반도체 시장의 미래 모습 중 아마도 가장 유력한 시나리오의 모습을 엿볼 수 있다는 것이다.
.
※ 본 칼럼은 외부 필진의 견해로, 삼성전자 DS부문의 공식 입장과 다를 수 있습니다.
기간 설정