GPU는 들러리일 뿐? AI 반도체의 진짜 주인공이 메모리로 바뀌는 5가지 이유(HBM, HBF 등)

 

AI 반도체 · 메모리

연산력의 시대는 저물고 있습니다. HBM → HBF로 이어지는 메모리 혁명이 AI 반도체 시장의 판을 다시 짜고 있습니다.

챗GPT나 소라(Sora)를 쓰다 보면 답변이 한 글자씩 느리게 찍히는 경험, 해보셨나요? 많은 분들이 GPU 성능 부족을 의심하지만, 진짜 범인은 따로 있습니다. 지난 2년간 AI 연산량은 750배 폭증했고, GPU 연산 속도도 30배 진화했습니다. 그런데 데이터를 실어 나르는 메모리 대역폭은 고작 1.6배밖에 개선되지 않았습니다. 엔진은 최고급 스포츠카인데, 도로는 여전히 비포장도로인 셈이죠.

AI 연산량 증가
750×
지난 2년 기준
GPU 연산 성능
30×
같은 기간 대비
메모리 대역폭
1.6×
← 여기가 병목

이 극심한 불균형이 AI의 발목을 잡고 있습니다. 이제 AI가 텍스트를 넘어 1시간 분량의 고화질 비디오를 생성하는 시대로 진입하면서, 기존보다 1,000배 이상의 대역폭과 용량이 절실해졌습니다. 오늘은 AI 반도체의 주권이 GPU에서 메모리로 넘어오는 5가지 핵심 이유를 짚어보겠습니다.


TAKEAWAY 01

연산력이 아니라 ‘기억력’이 승부를 가른다

생성형 AI의 핵심인 트랜스포머 모델은 문장 전체를 한꺼번에 펼쳐놓고 단어 간 관계와 문맥을 동시에 계산합니다. 이 과정에서 수조 개의 파라미터를 실시간으로 훑어야 하며, 이전 대화 내용을 전부 기록해두는 ‘KV 캐시(Key-Value Cache)’라는 메모장이 필수적입니다. 대화가 길어지고 영상 데이터가 무거워질수록 메모리에 저장할 분량은 눈덩이처럼 불어납니다.

최근 대세가 된 MoE(전문가 혼합 구조) 방식은 연산 효율은 높였지만 메모리 압박은 오히려 키웠습니다. 특정 연산에 필요한 ‘전문가’ 모델만 호출하더라도, 모든 전문가가 언제든 투입될 수 있도록 메모리에 상시 대기하고 있어야 하기 때문입니다.

현재 AI 컴퓨팅 과정에서 GPU는 데이터를 기다리느라 가동 시간의 30%를 놀리고 있습니다. 주방장은 손이 빠른데 재료를 나르는 카트가 부족해 손을 놓고 있는 격이죠. 진짜 바쁘게 움직이며 병목을 겪고 있는 주인공은 GPU가 아니라 HBM입니다.

— 김정호 교수 / KAIST 전기및전자공학부


TAKEAWAY 02

HBM의 뒤를 이을 게임 체인저, HBF

현재의 HBM은 속도는 빠르지만 가격이 비싸고 용량 확장에 한계가 있습니다. 이를 해결하기 위해 등장한 개념이 바로 HBF(High Bandwidth Flash)입니다. 낸드 플래시를 HBM처럼 수직으로 쌓아 올려 용량은 10배 키우고 가격은 대폭 낮춘 ‘따뜻한 기억(Warm Memory)’의 기술입니다.

HOT MEMORY
HBM
초고속 D램 기반. 실시간 연산 보조 역할. GPU 바로 옆에 붙어 작동하는 참고서. 속도↑ 가격↑ 용량↓
WARM MEMORY
HBF 2027년 목표
낸드 플래시 수직 적층. KV 캐시·파라미터 등 방대한 ‘암호 책’ 저장에 최적. HBM 대비 10배 용량, 저렴한 가격. 전공 서적 역할.
COLD MEMORY
SSD / HDD
속도는 느리지만 사실상 무제한 용량. 도서관의 방대한 장서 역할. 비용 효율 최고.
구분 HBM (Hot Memory) HBF (Warm Memory)
주요 소재 D램 (DRAM) 낸드 플래시 (NAND Flash)
특징 초고속, 높은 가격 대용량, 경제적 가격
주요 역할 실시간 연산 보조 방대한 파라미터 저장
비유 책상 위 참고서 책상 옆 책장 전공서적
양산 시기 현재 주력 공급 중 2027년 양산 목표

TAKEAWAY 03

사용자 경험을 결정하는 진짜 지표: TTFT & TPOT

사용자가 체감하는 AI 서비스의 질은 GPU의 테라플롭스(TFLOPS) 수치가 아니라 메모리 성능이 결정합니다. AI 비즈니스의 경쟁력이 ‘정확도’를 넘어 ‘응답 속도’로 이동했기 때문입니다.

TTFT
Time to First Token
질문 후 첫 글자가 찍힐 때까지의 시간. 서비스의 첫인상을 결정하는 핵심 지표. 메모리 대역폭에 직결됩니다.
TPOT
Time Per Output Token
첫 글자 이후 답변이 끊기지 않고 이어지는 속도. 사용자가 ‘자연스럽다’고 느끼는 핵심 경험 지표.

이 두 지표는 모두 메모리에서 데이터를 읽어오는 대역폭에 달려 있습니다. GPU 코어 수보다 메모리 속도가 곧 서비스 품질이 되는 시대입니다.


TAKEAWAY 04

‘메모리 센트릭’: 하청 부품에서 AI의 중심으로

과거 메모리가 GPU의 명령을 받는 ‘하청 부품’이었다면, 이제는 메모리가 컴퓨팅 구조 자체를 결정하는 ‘메모리 센트릭(Memory-Centric)’ 시대가 열리고 있습니다.

특히 메모리 적층 구조의 가장 밑단인 ‘베이스 다이(Base Die)’는 단순한 연결 통로에서 연산 기능까지 수행하는 복합 컴퓨팅 센터로 진화하고 있습니다. 메모리 내부에서 직접 연산하는 PIM(Processor In Memory) 기술도 주목할 부분입니다.

2038년경 등장할 예정인 HBM-8은 핀당 대역폭 64GB/s, 전력 소모 180W라는 스펙을 가질 것으로 예측됩니다. 실리콘 웨이퍼의 크기 제한을 극복하기 위한 유리(Glass) 기판 기술도 반도체의 주도권을 메모리 기업으로 옮겨오고 있습니다.


TAKEAWAY 05

1,000배 대역폭을 위한 물리적 사투: 냉각 기술

성능을 높이기 위해 메모리를 높게 쌓을수록 발생하는 최대의 적은 ‘열’입니다. 온도가 높아지면 반도체 내부의 전자가 밖으로 흘러나와(Leakage) 데이터 오류를 일으킵니다. 이제 반도체 설계만큼이나 열 설계(Thermal Design) 전문가의 가치가 치솟고 있습니다.

냉각 기술은 공랭식 → 수랭식 → 이머전 쿨링(Immersion Cooling) → 임베디드 쿨링 단계까지 진화할 것입니다. 냉각을 정복하는 자가 AI의 승기를 잡게 될 것입니다.

🔑 결론: AI의 미래는 메모리라는 그릇의 크기에 달려 있다

향후 15~30년간 AI 반도체 시장의 주권은 ‘얼마나 더 많이, 더 빠르게 기억하고 전달하는가‘에 의해 결정될 것입니다. HBM을 넘어 HBF로 이어지는 메모리의 진화는 단순한 부품의 발전이 아니라 컴퓨팅 패러다임의 거대한 전환입니다.

과거에는 엔비디아가 시장의 규칙을 세웠다면, 이제는 삼성전자와 SK하이닉스 같은 메모리 기업들이 AI의 한계를 규정하고 시장을 리드하는 ‘메가 사이클’이 오고 있습니다. AI 영화는 과연 어떤 한국산 메모리 위에서 상영되게 될까요?

 

댓글 남기기