国产大模型DeepSeek-V3：颠覆性的AI实力现身

时间: 2025-03-07 04:59:06 | 作者: 产品展示

产品介绍

12月26日，科技界炸开了锅，国产大模型DeepSeek推出了其新一代产品——DeepSeek-V3，一个令人惊艳的混合专家（Mixture-of-Experts，MoE）语言模型，市场反应热烈，甚至有人在社会化媒体上感叹：“圣诞节真的来了！”

翻译一下这些炫酷的数据：DeepSeek-V3拥有671B的MoE和37B的激活参数，其训练只需要少于2800个GPU小时，这简直是AI训练新纪元的速度！例如，对比Llama3系列模型的计算预算，DeepSeek-V3可以被训练多达十五次，想想那可谓是经济实惠。

从成本来看，如果H800GPU的租金定为每小时2美元，那么DeepSeek-V3的训练总成本仅为557.6万美元，这笔费用在AI圈里算是非常“友好”的了。

DeepSeek的成功秘诀在于采用了Multi-head Latent Attention（MLA）和DeepSeek MoE架构，使得推理更高效，训练成本大幅度降低。同时，新引入的辅助损失自由负载平衡策略及多token预测训练目标也为模型性能提升助力。经过14.8万亿个高质量token的预训练、监督微调和强化学习阶段，DeepSeek-V3的训练也显得异常稳定，没有遇到致命的损失峰值。

有趣的是，发布同一天，ChatGPT却再次宕机，用户修复时间尚未确定，显然两者形成了鲜明的对比。MetaAI的研究科学家田渊栋在社会化媒体上对于DeepSeek-V3的“超低预算和强劲表现”表示震惊，风险投资人Deedy则提出，将其称为“世界上最优秀的开源大模型”也并不为过。

DeepSeek-V3以英语和中文的多语言语料库为基础展开预训练，因而在多项英语和中文的基准测试中斩获佳绩。具体的测试结果为，DeepSeek-V3在多重维度的测试中均高于同种类型的产品，尤其在英语、编程和数学方面表现突出，中文同样不甘示弱。

鉴于DeepSeek的“大方”开源政策，很多人不由得提起OpenAI作对比，仿佛看到了“被推着往前走”的感觉。

DeepSeek并非一时之势。作为一家具勇于探索商业模式的公司，DeepSeek始终致力于推动大语言模型的技术进步，背后是由知名私募巨头幻方量化的强大支持。早前推出的DeepSeek-Coder等开源大模型，已证明其在AI领域的实力。DeepSeek的市场活动不仅为自己赢得了声誉，也为中国的大模型产业带来了新的生机。

总之，DeepSeek-V3的问世，标志着中国在全球AI技术创新竞赛中正不断发出更响亮的声音，展现出一个崛起的新兴科技力量。返回搜狐，查看更加多

贝博ballbetBB网页_艾弗森平台体育网址

等离子清洗机-大气等离子表面处理机-真空等离子清洗机厂家

国产大模型DeepSeek-V3：颠覆性的AI实力现身

产品介绍

国产大模型DeepSeek-V3：颠覆性的AI实力现身

产品介绍

相关产品

相关资讯

相关知识