DeepSeek宣布开源R1大语言模型,比肩OpenAI的o1
CBINEWS
责任编辑:邹大斌
电脑商情在线
时间:2025-01-21 11:33
DeepSeek LLM OpenAI R1 o1
DeepSeek日前发布了一个新的大型语言模型家族R1系列,该系列针对推理任务进行了优化,目前在Hugging Face已经可以看到该算法的源代码。
R1系列有两个:R1和R1-Zero。根据DeepSeek的说法,在几个推理基准测试中,前一个模型的性能优于OpenAI的o1。R1-Zero能力较弱,但代表了机器学习研究的潜在重大进步。
这两种LLM都具有混合专家或MoE架构,具有6710亿个参数。MoE模型包括多个神经网络,每个神经网络都针对不同的任务集进行优化。当模型接受提示时,称为路由器的机制将查询发送到最适合处理它的神经网络。
MoE架构的主要好处是它降低了推理成本。当用户在MoE模型中输入提示时,查询不会激活整个人工智能,而是仅激活将生成响应的特定神经网络。因此,R1和R1 Zero在回答提示时激活的参数不到其6710亿个参数的十分之一。
DeepSeek使用与研究人员通常采用的推理模型不同的方法训练R1-Zero。通常使用两种称为强化学习和监督微调的方法来训练推理优化的LLM。前一种技术教导人工智能模型通过试错来执行任务。反过来,监督微调通过为人工智能提供如何执行手头任务的示例来提高其输出质量。
在训练R1 Zero时,DeepSeek跳过了监督自调整阶段。然而,该公司设法为模型配备了推理技能,例如将复杂任务分解为简单的子步骤的能力。
“这是第一次公开研究,验证了LLM的推理能力可以纯粹通过RL激励,而不需要SFT,”DeepSeek研究人员详细介绍。“这一突破为该领域的未来发展铺平了道路。”
尽管R1-Zero具有高级功能集,但其输出质量有限。DeepSeek的研究人员详细介绍说,该模型的反应有时会受到“无休止的重复、可读性差和语言混合”的影响。希望R1解决这些限制。
R1是R1 -Zero的增强版本,它是使用修改的培训工作流开发的。该工作流使用了监督微调,这是DeepSeek在R1-Zero开发过程中遗漏的技术。该公司表示,这一变化有助于显著提高产量质量。
DeepSeek使用近24个基准测试将R1与四个流行的LLM进行了比较。根据该公司的说法,在几个基准测试中,其模型成功地超过了OpenAI的推理优化o1 LLM。在o1以更高的分数完成的大多数基准测试中,R1落后于它不到5%。
R1优于o1的基准之一是LiveCodeBench。它是一组编程任务,定期用新的实践问题更新。这使得人工智能模型不太可能在公共网络上找到现成的问题答案。
除了R1和R1- Zero之外,DeepSeek还开源了一组功能较弱但硬件效率更高的模型。这些模型是从R1“蒸馏”而来的,这意味着LLM的一些知识在培训期间转移给了他们。
蒸馏模型的大小从15亿到700亿个参数不等。它们基于Llama和Qwen开源LLM系列。DeepSeek表示,其中一个蒸馏模型R1-Distill-Qwen-32B在几个基准测试中的表现优于缩小的OpenAI-o1-mini版本的o1。