2025. 2. 20. 12:00ㆍGPT AI
요즘 AI 시장에서 DeepSeek AI라는 이름이 자주 들린다. "출시된 지 1년밖에 안 된 회사인데 벌써 GPT-4o와 비교된다", "V3 모델의 훈련 비용이 600만 달러도 안 된다", "API 가격이 경쟁사보다 훨씬 저렴하다", "앱이 미국과 중국 앱스토어에서 무료 앱 1위를 차지했다" 등등. 이런 이야기들이 쏟아지는 걸 보면 확실히 눈여겨볼 만한 기업이다. 오늘은 DeepSeek V3 모델의 핵심 기술과 AI 훈련 비용 절감 전략을 살펴보면서, 어떻게 이렇게 빠르게 성장할 수 있었는지를 분석해보려고 한다.
DeepSeek AI는 어떤 회사일까?
DeepSeek AI는 2023년 7월 중국 항저우에서 설립된 기업으로, 퀀트 트레이딩 회사인 환팡(幻方) 그룹의 자회사다. 설립된 지 얼마 안 됐지만, 이미 DeepSeek V2.5, DeepSeek V3, DeepSeek-R1 같은 모델들을 공개하며 빠르게 성장하고 있다. 특히 MoE(Mixture of Experts) AI 모델 구조를 적극적으로 활용하는 것이 특징이다. 이 외에도 DeepSeek-VL(비전-언어 모델), DeepSeek Coder(코딩 특화 모델), DeepSeek Math(수학 특화 모델) 등 다양한 모델을 내놓았다.
DeepSeek V3 모델의 성능과 비용
DeepSeek AI의 모델은 Llama 3, Qwen, GPT-4o 같은 글로벌 AI 모델과 직접 경쟁하는 수준이다. 실제 벤치마크 결과에서도 DeepSeek-V3가 오픈소스 AI 모델 중 최고 수준이며, 일부 테스트에서는 GPT-4o 같은 폐쇄형 모델과도 대등한 성능을 보인다고 한다. 하지만 성능보다 더 주목할 점은 엄청나게 낮은 훈련 및 추론 비용이다.
DeepSeek-V3의 AI API 가격을 보면, 100만 토큰 입력 비용이 1위안(약 200원) 정도로, 기존 국내외 AI API 가격의 몇십 분의 1 수준이다. 모델 훈련 비용도 상당히 낮은데, NVIDIA H800 GPU 약 2000장으로 학습했고, 전체 비용이 600만 달러를 넘지 않았다. 비슷한 규모의 모델을 훈련하는 데 보통 수천만~수억 달러가 드는 걸 감안하면 매우 효율적인 AI 모델 구조를 가지고 있다고 볼 수 있다.
어떻게 이렇게 효율적으로 AI 모델을 훈련했을까?
DeepSeek의 AI 모델이 높은 성능을 내면서도 낮은 비용을 유지할 수 있는 이유는 훈련과 추론을 최적화하는 독자적인 AI 기술들 덕분이다.
우선 MoE(Mixture of Experts) AI 아키텍처를 적극 활용했다. 일반적인 Transformer AI 모델이 모든 파라미터를 한꺼번에 사용하는 것과 달리, MoE 모델은 여러 개의 '전문가(Expert)' 네트워크를 두고, 입력 데이터에 따라 일부 전문가만 활성화되도록 설계되어 있다. DeepSeek AI의 MoE 구조는 기존 방식보다 더욱 정교하게 최적화되어, 6710억 개의 전체 파라미터 중 실제 활성화되는 부분은 370억 개에 불과하다. 즉, 필요한 계산량을 대폭 줄이면서도 성능을 유지할 수 있다는 뜻이다.
추가로, MLA(Multi-head Latent Attention) 주의력 메커니즘을 도입했다. 기존 Transformer AI 모델은 추론할 때 KV 캐시(Key-Value Cache)가 너무 커지는 문제가 있는데, DeepSeek은 MLA를 통해 저장해야 할 KV 캐시를 효과적으로 압축하여, 메모리 사용량을 줄이고 AI 모델 추론 속도를 크게 향상시켰다.
훈련 측면에서도 독자적인 AI 모델 최적화 기법을 적용했다. HAI-LLM이라는 자체 AI 훈련 프레임워크를 사용해 ZeRO 데이터 병렬, 파이프라인 병렬, 텐서 병렬, 시퀀스 병렬을 조합한 AI 모델 훈련 방식을 도입했다. 덕분에 GPU 리소스를 최대한 활용하면서도 병렬 연산의 비효율을 최소화할 수 있었다.
또한, FP8(8비트 부동소수점) 기반의 혼합 정밀도 학습 기술을 활용했다. 보통 AI 모델을 훈련할 때 FP16(16비트)나 BF16(브레인 플로트 16)을 사용하지만, DeepSeek은 일부 연산을 FP8로 줄여서 연산 속도를 높이고, AI 모델 훈련 비용을 절감하는 전략을 썼다.
DeepSeek AI가 보여주는 의미
DeepSeek은 단순히 '새로운 AI 모델을 출시한 기업'이 아니라, AI 모델의 비용과 효율성을 혁신적으로 개선한 기업이라고 볼 수 있다. 보통 대형 AI 모델을 개발하는 기업들은 천문학적인 훈련 비용을 감수하면서 최고의 성능을 추구하는데, DeepSeek은 상대적으로 저렴한 비용으로도 경쟁력 있는 AI 모델을 개발하는 방법을 찾아냈다.
또한, 중국 기업이 이런 AI 기술을 선도적으로 개발하고 있다는 점도 흥미롭다. 기존에는 AI 모델 연구에서 미국이 앞서 있었고, 중국은 주로 '응용'에 집중하는 경향이 있었지만, DeepSeek AI는 기술 혁신 자체에서도 강한 모습을 보이고 있다.
앞으로 DeepSeek AI가 어떤 방향으로 발전할지는 아직 확실하지 않지만, 고성능 AI 모델을 더 저렴하게 운영할 수 있는 방법을 찾고 있는 기업이나 연구자들에게는 큰 의미가 있을 것이다. AI 모델의 상업적 성공이 단순한 성능 경쟁이 아니라, 얼마나 효율적으로 운영할 수 있는지의 문제로 넘어가고 있는 지금, DeepSeek AI가 보여준 최적화 방식은 많은 기업들에게 참고할 만한 사례가 될 것이다.
AI 모델의 비용이 점점 낮아진다면, 앞으로 더 많은 기업과 개인이 AI 모델을 활용할 수 있는 기회가 생길 것이다. 그리고 DeepSeek AI 같은 기업이 이러한 변화를 주도하고 있다는 점에서, 앞으로의 행보가 더욱 기대된다. 🚀
'GPT AI' 카테고리의 다른 글
ChatGPT를 기반으로 한 AI 동반자 AIChatOne은 무엇인가? (0) | 2024.03.26 |
---|