跳到主要内容
博客计算Deepseek:为什么它很重要以及新闻界的错误之处

Deepseek:为何重要以及新闻界的错误之处

Deepseek_Why_it_Matters_and_What_the_Press_Got_Wrong

DeepSeek 最近推出了新的人工智能模型 R1,在科技界引起了轩然大波。该模型展示了与 OpenAI 的 o1 相当的推理能力,但有一个显著的区别:DeepSeek 声称,他们的模型是以低得多的成本训练出来的。

虽然 DeepSeek 到底是真的还是假的一直存在争议,但很明显,这是个警钟--依赖不断增加的 GPU 和大量能源的越来越大的 LLM 并不是唯一的出路。事实上,这种方法的优势显然有限,原因有以下几点:

首先,LLM 在训练时的纯粹扩展已经达到了收益递减的地步,甚至可能接近零收益。用更多数据训练出的更大模型并不能带来有意义的改进。 

此外,对于大多数用例,企业并不需要庞大的、无所不能的 LLM。即使在 DeepSeek 推出之前,也有一种明显的趋势,即针对特定业务需求定制更小、更专业的模型。随着更多企业人工智能用例的出现,推理变得更加重要--实际运行模型来实现价值。 在许多情况下,这将发生在互联网边缘,靠近终端用户。 与超大型 LLM 相比,经过优化可在广泛可用的硬件上运行的小型模型将创造更多长期价值。

最后,LLM 领域正在进入优化时代。迄今为止,我们所看到的人工智能模式都侧重于通过不惜代价的扩展来实现创新。效率、专业化和资源优化再一次占据了中心位置,这是一个信号,表明人工智能的未来不只是蛮力,而是如何战略性地、高效地部署这种力量。 

DeepSeek 在其技术论文中很好地强调了这一点,展示了工程优化的实力。他们的进步包括修改变压器架构,以及在训练过程中优化资源分配的技术。虽然这些创新推动了这一领域的发展,但这些都是循序渐进的进步,而不是人工智能技术的彻底变革。  

虽然媒体大肆渲染他们的进步--这的确值得关注--但他们普遍忽略了一个关键点:如果 DeepSeek 没有做到这一点,其他人也会做到。而且,他们很可能只是新一轮人工智能浪潮中的第一个,这股浪潮将大大提高模型训练成本和规模的效率。 

我们必须正确看待 DeepSeek 所取得的成就。多年来,DeepSeek 一直在稳步推进 LLM 架构和培训领域的技术发展,公司的进步只是其中最新的一步。这并不是颠覆性的突破。虽然这一消息给许多人敲响了警钟,但密切关注行业趋势的人应该对此早有预料。现实情况是,自 OpenAI 训练出 GPT-4 以来的两年时间里,训练效率方面的技术水平已经有了长足的进步。这不仅仅是硬件(GPU)的问题,也是算法和软件的问题。因此,即使是像 DeepSeek 这样无法使用最新、最先进 GPU 的公司,现在也能以更低的成本训练出像 GPT-4 一样优秀的模型,这一点也不足为奇。

DeepSeek 迈出了这一步,而且披露得如此彻底,值得称赞,但这只是人工智能技术发展过程中的又一个预期的里程碑,接下来还会有更多的里程碑。 

注释

留下回复

您的电子邮件地址将不会被公布。 必须填写的字段被标记为*