揭秘DeepSeek:AI人才年薪千万 训练成本被低估 * 阿波罗新闻网
新闻 > 科教 > 正文
揭秘DeepSeek:AI人才年薪千万 训练成本被低估

在已公布的基准测试中,Flash2.0 Thinking超越了 R1,尽管基准测试并不能说明全部情况。Google只发布了3个基准测试,因此情况不够全面。不过,我们认为 Google的模型非常稳健,在许多方面可以与 R1相当,但却未获得太多关注。

这可能是由于 Google营销策略平平、用户体验较差,但同时 R1也作为一项来自中国的黑马出现。

需要明确的是,这些都不会削弱 DeepSeek非凡成就的价值。DeepSeek作为一家快速运作、资金充足、聪明且专注的初创公司,这正是它在推理模型方面超越 Meta等巨头的原因。

让美国科技圈疯狂复制的 MLA创新DeepSeek实现了许多领先的 AI公司都未达到的技术创新。我们预计,接下来 DeepSeek发布的任何技术进展,都将几乎立刻被西方实验室复制。

这些技术突破是什么?大多数架构上的成就都与 V3相关,而 V3也是 R1的基础模型。下面让我们详细介绍这些创新。

训练(预训练与后训练)

DeepSeek V3利用 Multi-Token Prediction(MTP)实现了前所未见的规模,这是一种新增的注意力模块,可预测接下来的多个 token,而非单一 token。

它在训练过程中显著提高了模型性能,并且在推理时可以被移除。这就是一种利用较低计算资源实现性能提升的算法创新。

还有一些额外的考量,比如在训练中采用 FP8精度,但领先的美国实验室已经使用 FP8训练有一段时间了。

DeepSeek V3还是一种专家混合模型,即由众多专注于不同任务的小专家组成的大模型,表现出强大的涌现能力。

MoE模型曾面临的一个难题,是如何确定哪个 token应该分配给哪个子模型或“专家”。DeepSeek实现了一个“门控网络”(gating network),能以平衡的方式将 token路由到合适的专家,而不会影响模型性能。

这意味着路由效率非常高,在训练过程中每个 token相对于整个模型的规模仅需修改少量参数。

这提高了训练效率,同时也降低了推理成本。

尽管有人担心专家混合模型(MoE)带来的效率提升,可能会减少投资,但 Dario指出,更强大 AI模型所带来的经济效益非常可观,因此任何节约的成本都会迅速再投资于构建更大规模的模型。

MoE的效率提升不仅没有减少总体投资,反而会加速 AI的规模扩大。目前硅谷的主流科技公司都在正全力以赴地将模型扩展到更多计算资源,并在算法上提高效率。

R1背后的基础模型 V3

就 R1而言,其极大地受益于拥有一个强大的基础模型(V3),这部分得益于强化学习(RL)。

RL主要聚焦两个点:格式化(以确保输出连贯)以及有用性和安全性(以确保模型实用)。

推理能力是在对模型进行合成数据微调时产生的。正如我们在扩展定律文章中提到的,这正是 o1所经历的过程。

需要注意的是,R1论文中没有提及计算资源的使用情况,这是因为提到所用计算资源的数量会透露他们拥有的 GPU数量远超过其对外宣传的规模。

如此大规模的强化学习需要大量计算资源,尤其是在生成合成数据的场景。

此外,DeepSeek使用的一部分数据似乎来自 OpenAI的模型(尚未证实),我们认为这将对从输出中进行蒸馏的政策产生影响。根据服务条款这是违规的,但未来一种新的趋势可能会采取类似 KYC(了解你的客户)的方式来阻止数据蒸馏。

谈到蒸馏,也许 R1论文中最值得关注的部分,是能够通过用推理模型的输出对非推理小模型进行微调,将其转变为具备推理能力的模型。

数据集策划共包含80万个样本,现在任何人都可以利用 R1的思维链(CoT)输出创建自己的数据集,并借助这些输出构建推理模型。

我们可能会看到更多小模型展示出推理能力,从而提升小模型的性能。

多头潜在注意力(MLA)

正如我们在前文提到,多头潜在注意力(MLA)是 DeepSeek在推理成本上大幅降低的关键创新。

因为与标准注意力机制相比,MLA将每次查询所需的 KV缓存减少了约93.3%。KV缓存是 Transformer模型中的一种内存机制,用于暂时保存代表对话上下文的数据,从而减少重复计算。

随着对话上下文的增长,KV缓存也会增加,进而带来巨大的内存压力。因此大幅减少每次查询所需的 KV缓存,就能降低每次查询所需的硬件量,从而降低了整体成本。

不过我们认为 DeepSeek是以成本价提供推理服务以抢占市场份额,而并非真正盈利。

Google Gemini Flash2.0 Thinking仍然更便宜,且 Google不太可能以成本价提供该服务。MLA尤其引起了许多领先的美国实验室的关注。

MLA于2024年5月在 DeepSeek V2中首次发布,由于 H20的内存带宽和容量相比 H100更高,DeepSeek在推理工作负载上也获得了更多效率提升。他们还宣布与华为建立合作关系,但迄今为止在昇腾计算方面的应用还很少。

我们认为,MLA对利润率带来的影响,对整个 AI生态系统都意义重大。

R1没有在技术层面削弱?o1的优势在利润率方面,我们有一个关键发现:R1并未削弱 o1在技术上的优势,反而以更低的成本提供了相似的能力。

这一结果合理且具有启示意义,促使我们构建了一个面向未来的定价机制框架。能力越强,利润率越高,这一逻辑与半导体制造行业的发展路径颇为相似。

台积电首次突破至新的工艺节点,推出前所未有的产品时,便能获得强大的定价权。而处于技术追赶阶段的竞争者,如三星和英特尔,则更多依靠在成本和性能之间寻求平衡,通常以低于市场领导者的价格进行竞争。

对于芯片制造商(在这里可类比为 AI实验室)而言,优势在于可以灵活调整产能。如果某个新模型具备更优的成本效益,企业可以快速增加其产能,同时逐步减少对旧模型的支持。

这种产能调整机制不仅符合当前 AI实验室的运作模式,也与半导体行业长期以来的经验契合。

技术的竞争就是定价权争夺这或许预示着未来 AI竞赛的发展轨迹。

率先进入新能力层级的企业将掌握显著的定价溢价,而跟随者则只能依靠微薄的利润勉强维持。

那些在能力上落后的产品仍会存在,前提是它们能满足特定的使用场景,但每一代产品中能够赶超领先者的参与者会越来越少。

我们已经在见证,R1已经达到了领先的能力水平,却以零利润的价格销售。

这种鲜明的价格差异引发人们的疑问:凭什么 OpenAI的产品这么昂贵?因为他们的产品定价基于最前沿的技术,并从中获取相应的溢价收益。

我们认为,未来的技术发展速度将超过半导体制造业目前的快速节奏。

追求最新能力意味着持续的定价权——以ChatGPT Pro为例,而能力滞后的产品则必须通过降低价格来维持市场,利润主要依赖于底层的算力和代币基础设施。

在当前这个快速迭代的技术周期中,追求卓越能力的动力只会加速产品的更新换代。只要企业能够持续拓展能力、开发具有新价值的功能,就理应享有定价权;反之,在开放市场中,产品同质化的趋势会迅速显现。

在这个背景下,人们对当前局势存在着根本性的误解。我们所描述的情景,颇有几分类似于超高速发展的半导体制造业——这是全球资本密集度最高的行业。没有哪个行业在研发上的投入超过半导体制造业,但最接近这一现实的AI模型供应链,却常常被视为不利的参照对象。

将 AI token与杰文斯悖论进行比较,可以发现深刻的历史相似性。

最初,人们对晶体管能否持续微缩存在疑虑;一旦这一趋势被确认,整个行业便全力以赴推动 CMOS技术向极限缩放,并在此基础上构建关键功能。

如今,我们正处于将多链思维模型和能力整合的初期阶段,这与晶体管微缩的早期时代颇为相似。尽管从技术角度来看,这可能是一个充满动荡的时期,但对于英伟达而言却是一个好消息。

免费又强大推理模型能一直持续吗事实上市场一直在寻找一种新的破局点,而这正是它所选择的。

如果 DeepSeek愿意以0或甚至负利润率运营,那么其产品价格确实可能被压低到如此程度。

然而,对于前沿 Token服务的定价弹性显然要高得多。鉴于 DeepSeek正处于新一轮融资之中,他们有强烈的动力去追求这一策略。

在推理领域的一个关键转折点上,DeepSeek打破了 OpenAI占主导地位的利润率。这种领先地位能否持续?

我们认为不会——毕竟,一个开源实验室现在已经展示了曾被认为仅属于闭源实验室的能力。虽然这是一个关键性的发展,但必须认识到 DeepSeek仍然是一个快速跟随者。

我们确实认为,一个更强大的开放实验室(目前 DeepSeek是最杰出的代表),将极大地惠及新兴云服务提供商和基础设施供应商。

无论模型是开源还是闭源,计算资源的集中化依然至关重要。然而,如果建立在这些计算资源之上的上层服务开始免费提供产品,那么计算本身的内在价值很可能会上升。

更多资本将流向计算基础设施,而不是封闭模型供应商,这标志着支出正向硬件转移。软件公司也将从这一动态中大幅受益。

责任编辑: 方寻  来源:爱范儿 转载请注明作者、出处並保持完整。

本文网址:https://d3icyu3vmjgcad.cloudfront.net/2025/0204/2170242.html