国产大模型DeepSeek-V3:颠覆性的AI实力现身

时间: 2025-03-07 04:59:06 |   作者: 产品展示

产品介绍

  

国产大模型DeepSeek-V3:颠覆性的AI实力现身

  12月26日,科技界炸开了锅,国产大模型DeepSeek推出了其新一代产品——DeepSeek-V3,一个令人惊艳的混合专家(Mixture-of-Experts,MoE)语言模型,市场反应热烈,甚至有人在社会化媒体上感叹:“圣诞节真的来了!”

  翻译一下这些炫酷的数据:DeepSeek-V3拥有671B的MoE和37B的激活参数,其训练只需要少于2800个GPU小时,这简直是AI训练新纪元的速度!例如,对比Llama3系列模型的计算预算,DeepSeek-V3可以被训练多达十五次,想想那可谓是经济实惠。

  从成本来看,如果H800GPU的租金定为每小时2美元,那么DeepSeek-V3的训练总成本仅为557.6万美元,这笔费用在AI圈里算是非常“友好”的了。

  DeepSeek的成功秘诀在于采用了Multi-head Latent Attention(MLA)和DeepSeek MoE架构,使得推理更高效,训练成本大幅度降低。同时,新引入的辅助损失自由负载平衡策略及多token预测训练目标也为模型性能提升助力。经过14.8万亿个高质量token的预训练、监督微调和强化学习阶段,DeepSeek-V3的训练也显得异常稳定,没有遇到致命的损失峰值。

  有趣的是,发布同一天,ChatGPT却再次宕机,用户修复时间尚未确定,显然两者形成了鲜明的对比。MetaAI的研究科学家田渊栋在社会化媒体上对于DeepSeek-V3的“超低预算和强劲表现”表示震惊,风险投资人Deedy则提出,将其称为“世界上最优秀的开源大模型”也并不为过。

  DeepSeek-V3以英语和中文的多语言语料库为基础展开预训练,因而在多项英语和中文的基准测试中斩获佳绩。具体的测试结果为,DeepSeek-V3在多重维度的测试中均高于同种类型的产品,尤其在英语、编程和数学方面表现突出,中文同样不甘示弱。

  鉴于DeepSeek的“大方”开源政策,很多人不由得提起OpenAI作对比,仿佛看到了“被推着往前走”的感觉。

  DeepSeek并非一时之势。作为一家具勇于探索商业模式的公司,DeepSeek始终致力于推动大语言模型的技术进步,背后是由知名私募巨头幻方量化的强大支持。早前推出的DeepSeek-Coder等开源大模型,已证明其在AI领域的实力。DeepSeek的市场活动不仅为自己赢得了声誉,也为中国的大模型产业带来了新的生机。

  总之,DeepSeek-V3的问世,标志着中国在全球AI技术创新竞赛中正不断发出更响亮的声音,展现出一个崛起的新兴科技力量。返回搜狐,查看更加多