DeepSeek发布改进的 V3 模型,采用新的开源许可

作者:

CBINEWS

责任编辑:

邹大斌

来源:

电脑商情在线

时间:

2025-03-25 10:22

关键字:

DeepSeek DeepSeek-V3 大模型 AI

DeepSeek 在新的开源许可下发布其 DeepSeek-V3 大型语言模型的改进版本。软件开发者兼博主 Simon Willison 首先报道了这一更新。DeepSeek 本身并未发布相关公告。新模型的 Readme 文件(代码存储库中通常包含说明性注释的组件)目前为空白。

DeepSeek-V3 是一款于去年 12 月首次亮相的开源 LLM。它是 DeepSeek-R1(今年早些时候使中国人工智能实验室声名鹊起的推理模型)的基础。DeepSeek-V3 是一款通用模型,并未专门针对推理进行优化,但它能够解决一些数学问题并生成代码。

此前,该 LLM 一直根据自定义开源许可证分发。DeepSeek 今日推出的这一新版本改用广泛使用的 MIT 许可证。开发者可以在商业项目中使用更新后的模型,并对其进行修改,几乎没有限制。

更值得注意的是,新的 DeepSeek-V3 发布版本似乎比原始版本更强大、更高效。

大多数前沿 LLM 只能在数据中心的显卡上运行。苹果公司机器学习研究小组的研究科学家 Awni Hannun 在 Mac Studio 上运行了新的 DeepSeek-V3 发布版本。该模型以每秒约 20 个Token的速度生成输出。

所使用的 Mac Studio 配置高端,售价高达 9,499 美元。在该机器上部署 DeepSeek-V3 需要应用Int4量化。这是一种 LLM 优化技术,以牺牲部分输出准确性为代价,换取更低的内存使用率和延迟。

根据 VentureBeat 发现的一篇 X 帖子,新的 DeepSeek-V3 版本在编程方面比原始发布版本更胜一筹。该帖子包含了一项据称为评估模型生成 Python 和 Bash 代码能力的基准测试。新发布版本得分约为 60%,比原始 DeepSeek-V3 高出数个百分点。

该模型仍落后于 DeepSeek-R1,即该人工智能实验室的旗舰推理优化 LLM。最新的 DeepSeek-V3 发布版本得分也低于另一款推理优化模型 Qwen-32B。

尽管 DeepSeek-V3 拥有 6710 亿个参数,但在回答提示时仅激活约 370 亿个。这种设置使该模型相比传统 LLM(会激活所有参数)所需基础设施更少。 DeepSeek 称,该 LLM 也比 DeepSeek-R1 更高效,降低了推理成本。

原始版本的 DeepSeek-V3 是在包含 14.8 万亿个标记的数据集上训练的。训练过程使用了约 280 万显卡小时,这比前沿 LLM 通常所需的时间少得多。为了提高模型的输出质量,DeepSeek 工程师使用 DeepSeek-R1 的提示响应对其进行微调。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255