DeepSeek 大语言模型做了哪些创新？

作者：

CBINEWS

责任编辑：

邹大斌

来源：

电脑商情在线

时间：

2025-04-01 09:56

关键字：

DeepSeek 大模型 AI 生成式人工智能 GenAI

最近几个月，DeepSeek 的发布在生成式 AI 领域掀起了波澜，工程师和开发者们纷纷好奇该公司是如何实现这一成果的，以及他们如何在自己的技术栈中利用这项技术。

DeepSeek 团队的成功是建立在人工智能社区已知但尚未完全应用的很技术之上，从而实现了一个性能与 Meta 的 Llama 3.1 等领先模型相当的模型，但其构建和训练成本却大幅降低。

最重要的是，DeepSeek 将其成果作为开放获取技术发布，这意味着其他人可以从中学习，并为大语言模型（LLMs）及相关技术创造一个更具竞争力的市场。

以下是对 DeepSeek 如何实现突破的深入探讨，以及组织在创新如此迅速的情况下必须采取的措施，以便利用这些创新。

深入了解 DeepSeek 模型

DeepSeek 在 12 月底和 1 月底分别发布了两个模型：DeepSeek -V3，一个与 GPT-4 规模相当的强大基础模型；以及 DeepSeek R1，一个专门用于复杂推理的模型，基于 V3 基础构建。以下是每个模型的技术策略概述。

1. DeepSeek -V3

训练精度的新配方：DeepSeek 利用八位精度矩阵乘法加速操作，同时实现自定义逻辑以正确精度累积结果。他们还使用了 WGMMA 并行操作符。

将多标记预测提升到新水平：显然受到 Meta 法国研究团队的启发，该团队开创了同时预测多个标记的先河，DeepSeek 利用增强的实现技术将这一概念进一步推进。

对“常识”的专业运用：混合专家（MoE）的基本概念类似于根据任务激活大脑的不同部分——就像人类通过仅激活必要的神经电路来节省能量一样。传统的 MoE 模型将网络分为有限数量的“专家”（例如八个专家），并在每个查询中仅激活一到两个。DeepSeek 引入了一种更细致的方法，借鉴了微软研究院最初探索的一个想法——一些“常识”需要由始终处于活跃状态的模型组件进行处理。

2. DeepSeek -R1

大规模奖励推理：类似于 AlphaGo Zero 仅从游戏规则学习围棋，DeepSeek- R1 Zero 从一个基本的奖励模型学习如何推理——这在如此大的规模上是首次尝试。虽然这一概念并不新颖，但成功将其应用于大规模模型是前所未有的。DeepSeek 的研究捕捉到了一些深刻的时刻，例如 DeepSeek R1 Zero 自行意识到多花时间思考可以得出更好答案的“啊哈时刻”。

“冷启动”：DeepSeek R1 模型还采用了更传统的方法，纳入了来自 DeepSeek V3 的冷启动数据。虽然在这个阶段似乎没有涉及突破性的技术，但耐心和细致的策划很可能在使其正常运行方面发挥了关键作用。

这些 DeepSeek 的进步证明了开放研究的价值，以及它如何帮助人类的进步。实际上，Hugging Face 的优秀团队已经在其 Open R1 项目中努力重现 DeepSeek R1。

不要押注单一大模型

人工智能的限制因素不会是发现业务价值或模型质量。至关重要的是，公司必须对其人工智能合作伙伴保持无关性策略。

DeepSeek 表明，押注单一的 LLM 提供商将是一场失败的游戏。一些组织已经锁定在单一供应商，无论是 OpenAI、Anthropic 还是 Mistral。但新玩家在一夜之间颠覆格局的能力清楚地表明：公司需要一种与供应商无关的 LLM 方法。

多 LLM 基础设施避免了供应商“锁定”的风险，并使在市场发展过程中集成和切换模型变得更加容易。本质上，这通过确保公司在其人工智能旅程中的选择性来为任何 LLM 决策提供未来保障。

企业还必须通过仔细的治理来保持控制。DeepSeek 和快速出现的代理人工智能世界展示了人工智能格局的混乱和快速变化。在一个开源推理模型和快速增殖的供应商的世界中，工程团队将需要保持严格的测试、强大的防护栏和持续的监控。如果能够满足这些需求，像 Deepseek 这样的技术将通过增加竞争、降低成本和开辟更多公司可以利用的新用例，为所有企业带来巨大的积极影响。

DeepSeek 大语言模型做了哪些创新？

精彩专题

智库专家