• [论文翻译]DeepSeek-V3 技术报告(DeepSeek-V3 Technical Report)

    我们推出了 DeepSeek-V3,这是一个强大的专家混合模型 (Mixture-of-Experts, MoE) 语言模型,总参数量为 671B,每个 Token 激活的参数量为 37B。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (Multi-head Latent Attention, MLA) 和 Deep Seek MoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。此外,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,并设定了多 Token 预测训练目标,以实现更强的性能。我们在 14.8 万亿个多样化且高质量的 Token 上对 DeepSeek-V3 进行了预训练,随后进行了监督微调和强化学习阶段,以充分发挥其能力。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能卓越,DeepSeek-V3 的完整训练仅需 2.788M H800 GPU 小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或执行任何回滚操作。模型检查点可在 https://github.com/deepseek-ai/DeepSeek-V3 获取。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一款聚焦健康管理的智能平台
在这里您可以获得本平台自训练的
健康管理大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能健康快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众健康的桥梁
让科学健康管理融入日常
登陆小程序
AI数字人随身守护
健康管理更高效
生活品质悄然升级

千集助理