요즘 인공지능 업계에서 딥시크 이야기가 참 많이 들린다. 처음엔 자꾸 80억으로도 거대 언어 모델을 만들 수 있다는 말만 들려서, 이것 참 대단한 가성비 모델인가 하는 생각도 했다. 그런데 알고 보면 그 80억이라는 숫자가 전체 비용은 아니었다. 사람으로 치면 한 번에 “최종 시험”만 봤을 때 드는 비용에 가깝다는 것이다. 여러 번의 시행착오와 재시도를 전부 합치면 당연히 그 이상이 들 텐데, 그럼에도 딥시크의 의미를 폄하하기엔 무리가 있다. 왜냐하면 이 모델이 보여준 건 “꼭 초거대 자본이 아니더라도, 똑똑한 엔지니어들이 잘 협력하면 우리도 할 수 있다”는 가능성이기 때문이다.
가령 엔비디아 GPU만 산더미처럼 깔아놓고, 전기와 인력 자원을 무한정으로 갈아 넣듯 개발에 몰두하는 식으로야 누군들 못 하겠는가. 물론 빅테크들은 실제로 그렇게 한다. 하지만 경쟁자 입장에서 그 길을 똑같이 따라가기엔 현실적 장벽이 너무 높다. 딥시크는 여기서 희망을 불어넣었다. 모두가 엄두를 못 내던 상태에서, 그래도 한 단계 낮은 자원으로 가능성 있는 모델을 만들어냈다는 점이 의미가 크다. 사람들이 80억이라는 숫자에 혹할 수밖에 없는 것도 그런 맥락이라고 본다.
하지만 마냥 장밋빛은 아니다. 특히 추론(Inference) 단계에서 문제가 생긴다. 딥시크가 채택한 MOE(Mixture of Experts) 구조는 학습 때 일부 전문 지식만 쓰기 때문에 연산을 아낄 수 있다. 그런데 정작 모델을 쓰는 순간, 그 수많은 전문가들을 다 대기시켜야 한다. 논문에 따르면 딥시크는 GPU 320장을 서비스에 투입한다고 하는데, 매번 필요한 전문가는 아홉 개 정도이다. 그럼 나머지 300장이 넘는 GPU는 놀게 되느냐. 이게 또 그렇지 않더라. 딥시크 측은 “노는 GPU를 없애겠다”는 기치 아래 다양한 엔지니어링을 집어넣었다고 한다. 여러 사용자가 동시에 들어오면 골고루 나눠 쓰게 하고, 자주 쓰이는 전문가에게는 GPU 리소스를 조금 더 준다. 이런 식으로 빈틈을 계속 메워가면서 추론 비용 대비 성능을 끌어올린다니, 그만큼 사람 갈아넣는 기술이 만만치 않았음을 알 수 있다.
그렇다면 이런 엔지니어링을 우리도 그대로 배워와 따라 할 수 있느냐. 공개된 리포트가 꽤 자세해 보이긴 해도, 실제로는 핵심 노하우가 다 담긴 것은 아니다. 어디서 데이터를 어떻게 모으고, 어떻게 실시간으로 GPU 자원을 모니터링하고 분배하며, 또 최적화를 몇 겹이나 더했는지는 기업 내부 기술일 것이다. 그러니 모두가 단숨에 딥시크를 흉내 낼 수 있다고 보긴 어렵다. 하지만 최소한 그 방법론의 얼개나 가능성은 확인됐다는 점에서, 다른 플레이어들에게도 “우리도 한번 해 볼 만하다”는 동기 부여를 해 준 건 틀림없다.
한편, 또 다른 흥미로운 이야기는 삼성전자 관련 질문이었다. 왜 삼성전자는 인공지능에서 예전만큼 존재감을 못 내느냐는 것이다. 사실 삼성도 GPU에 일찌감치 투자했다. 아직 CNN(영상 처리 위주) 시절부터 꽤 많은 장비를 들였다고 하는데, 어느 시점에 투자 강도가 약해졌다. 그 뒤 LLM이 폭발적으로 나오면서 생긴 흐름을 놓쳤다고 보는 시각이 있다. 막대한 자본을 쏟아부을 수 있는 기업도 어쩔 땐 타이밍 하나로 성패가 갈린다. 그래서 더더욱 적절한 시점에 잘 치고 올라가야 한다는 게 업계 공통된 목소리다.
그렇지만 엔비디아 독주 체제가 언제까지나 이어질 거라고 보는 사람은 많지 않다. 물론 당장 GPU가 최강자임에는 이견이 없다. 모든 개발·학습 생태계가 쿠다(CUDA)에 맞춰져 있어서, 다른 하드웨어 솔루션을 써도 호환성 문제에 부딪히기 쉽다. 게다가 엔비디아는 최적화 기술이 워낙 뛰어나서, 아무리 좋은 반도체가 새로 나와도 안정적으로 활용하기가 쉽지 않다. 그럼에도 최근 여러 스타트업이나 반도체 설계사들이 도전장을 내민 이유는, LLM이 등장하면서 패러다임이 달라졌기 때문이다. 어떤 회사는 고성능 DRAM인 HBM 대신 LPDDR을 써서 비용을 절감하려 하고, 또 다른 회사는 GPU와 다른 전용 아키텍처로 추론 효율을 높이려고 노력한다.
하이퍼 엑셀이란 팬리스 회사도 그중 하나로 거론된다. 이 회사는 데이터센터용 AI 반도체를 직접 설계하면서, LLM용 모델 돌리기에 최적화된 구조를 짜고 있다고 한다. 기존 GPU처럼 “무엇이든 받아들일 수 있는 범용 반도체”가 아니라, 랭기지 모델에 포커스를 맞춘 형태다. 그래서 메모리도 HBM 대신 LPDDR을 채택한다. 이러면 속도는 당연히 떨어질 수밖에 없는데, 대신 전력 효율과 비용 측면에서 이점이 생긴다. 물론 여기에도 엔지니어링 역량이 엄청나게 들어간다. 저속 메모리라도 활용도를 최대한 끌어올리거나, 경량화(양자화) 기법을 적용해 추론에 필요한 파라미터 양을 줄인다. 그걸 실제 데이터센터 환경에서 문제없이 굴러가도록 만드는 게 관건이다.
물론 말이 쉽지, 칩 하나 찍는 데도 수백억 원이 든다. 설계만 완벽하다고 바로 양산에 들어갈 수 있는 것도 아니고, 시제품이 잘못 나오면 그 돈이 전부 날아가는 위험을 감수해야 한다. 그래서 이런 팬리스 회사들이 첫 번째 칩을 테이프아웃하기까지는 가시밭길이 펼쳐진다. 하이퍼 엑셀도 올해 연말을 목표로 칩을 내놓는다고 하는데, 개발하느라 달려온 시간을 생각하면 간단히 넘길 일이 아니다. 결국 이들 회사가 진짜 제품을 내놓고, 그걸로 LLM 모델이 잘 돌아가는 모습을 보여줘야만 “드디어 엔비디아 GPU 이외의 대안”이 본격화될 것이다. 이전까지는 다들 GPU가 너무 비싸고 전력 소모도 걱정이라면서도, 마땅한 대안이 없어서 발만 동동 굴렀다.
딥시크가 보여 준 교훈도 비슷하다고 본다. 물론 학습 비용만 보면 가성비처럼 보이지만, 추론 비용이나 기술적 공수 등을 생각하면 현실적으로 만만치 않다. 그래도 일단 문은 열린 셈이다. 그 여세를 몰아 AI 반도체 설계를 하는 크고 작은 업체들은 저마다의 방법론으로 자신들의 칩을 준비 중이다. 이 경쟁 덕분에 언젠가 AI 서비스 비용이 대폭 내려가서, 나 같은 일반 사용자도 별 부담 없이 대규모 모델을 쓸 수 있는 날이 오길 기대해 본다. 우리에게 중요한 것은 GPU 독주를 과연 어떤 회사가, 어떤 방식으로 견제하게 될지 지켜보는 일일 테다. 아무튼 요즘 반도체 엔지니어들과 AI 연구자들을 보다 보면, 정말 조금만 방심해도 순식간에 뭔가 새로운 게 터져 나오는 시대가 되었음을 실감한다. 그 폭풍 같은 흐름 한가운데서, 이들이 보여 줄 다음 성과가 벌써부터 궁금하다.
'일기장' 카테고리의 다른 글
현대제철의 미국공장 건설이 돌파구가 될까? (1) | 2025.02.17 |
---|---|
쉽게 금리를 내리지 못하는구나 (0) | 2025.02.16 |
문재인의 부동산 정책 실패가 이지경까지 왔다 (0) | 2025.02.16 |
의성축협 부동산대출 부실사태를 지켜보며 (0) | 2025.02.16 |
openai operator (2) | 2025.02.16 |