핵심 요약
AI 용어사전에 새로 오른 표현들의 공통점은 하나다. 초점이 모델을 학습시키는 단계에서 모델을 실제로 돌려 답을 뽑아내는 단계로 옮겨가고 있다는 것. 이 이동은 말장난이 아니라 반도체 수요의 축이 GPU 학습 클러스터에서 추론 서버로 넘어가고 있다는 신호이고, 그 신호는 이미 HBM 스펙 경쟁과 하이퍼스케일러 capex 배분에 숫자로 찍히고 있다.
무슨 일인가
용어사전이 새로 담아낸 개념군을 나눠보면 세 층으로 갈린다. 첫째는 에이전틱 AI, 즉 모델이 스스로 여러 단계를 계획하고 도구를 호출해 작업을 완수하는 방식이다. 둘째는 추론모델과 테스트 타임 컴퓨트, 답을 내기 전에 모델이 스스로 여러 차례 사고 과정을 거치는 방식이다. 셋째는 이 둘을 감당하는 인프라 용어, 즉 토큰 단가와 추론 지연시간이다.
이 세 층은 순서대로 연결된다. 에이전틱 워크플로우는 한 번의 질문에 답하는 게 아니라 여러 차례 모델을 호출하는 구조라 토큰 소비량이 단순 챗봇 대비 배 단위로 늘어난다. 추론모델은 답변 하나를 만드는 데도 내부적으로 여러 추론 경로를 돌리니 같은 질문이라도 연산량이 커진다. 결국 두 흐름이 겹치면 늘어나는 건 학습용 GPU 대수가 아니라 추론 서버 가동률과 그 서버가 요구하는 메모리 대역폭이다.
이게 왜 용어사전 수준의 이야기가 아니라 밸류체인 이야기인가 하면, 추론 성능의 병목이 연산 코어가 아니라 메모리 대역폭에 있기 때문이다. 추론모델이 내부적으로 여러 스텝을 반복하는 동안 GPU는 계속 메모리에서 파라미터를 실어 날라야 하고, 이 구간에서 HBM 대역폭과 용량이 곧 추론 속도를 결정한다. 학습 중심 서사에서 HBM3E 몇 단을 쌓느냐가 이슈였다면, 추론 중심 서사에서는 대역폭 대비 전력 효율과 단가가 이슈로 바뀐다.
배경과 맥락
이 축의 이동은 하이퍼스케일러들의 데이터센터 설계 자체를 바꾸는 문제라 capex 배분에도 영향을 준다. 학습 전용 클러스터는 소수의 초대형 트레이닝 팜에 집중 투자하면 됐지만, 추론은 사용자 요청이 들어오는 만큼 지역별로 분산 배치해야 하고 전력·냉각 제약이 다르게 걸린다. 그 결과 같은 capex라도 GPU 한 대당 필요한 전력, 랙당 밀도, 데이터센터 부지 확보 속도 같은 변수가 새로 부각된다.
또 하나 짚을 대목은 커스텀 반도체 용어의 부상이다. 에이전틱·추론 워크로드가 반복적인 패턴을 가진 만큼, 범용 GPU 대신 특정 연산에 최적화한 ASIC으로 추론 비용을 낮추려는 움직임이 용어사전에도 반영돼 있다. 이는 엔비디아의 범용 GPU 독점 구도에 조금씩 균열을 만드는 흐름이다.
시장·종목에 미치는 영향
- 엔비디아 — 학습용 GPU 수요는 여전히 견조하지만, 추론 특화 커스텀 칩 논의가 확산될수록 GPU 범용성 프리미엄이 희석될 여지가 커진다. CUDA 생태계 록인이 이 압력을 얼마나 상쇄하는지가 관건이다.
- SK하이닉스·삼성전자 — 추론 인프라 확산은 HBM 수요를 학습용 대형 스택에서 추론 서버용 중소형 스택까지 넓히는 효과가 있다. 다만 추론 서버는 단가에 민감해 고가 최상위 스펙보다 대역폭 대비 원가 경쟁력이 관건이 된다.
- 마이크로소프트·아마존·구글 등 하이퍼스케일러 — 에이전틱 워크로드 확산은 이들의 클라우드 추론 매출을 늘리는 동시에 전력·데이터센터 부지 확보 부담도 키운다. capex 증가분이 학습에서 추론 인프라로 재배분되는 속도를 봐야 한다.
- 전력·전력기기 관련주 — 추론 서버가 지역 분산 배치되는 구조로 바뀌면 특정 초대형 캠퍼스가 아니라 여러 지역의 전력망 증설 수요가 함께 늘어난다.







