GDC上DeepSeek引发热议：大模型技术上限远没有看到

2024年年底以来，围绕大模型有非常多讨论，其中一个声音是，技术上Scalling law（尺度定律）面临“撞墙”，大模型迭代放缓。另一方面，大模型在落地应用上也有诸多掣肘。这些话题也是刚刚过去的GDC（全球开发者先锋大会）讨论的一个焦点。

“行业非常关注产业落地，但和很多企业聊的时候，大家经常说的是，大模型适合做演示，在真正落地的时候存在着成本、效率、可靠性、稳定性和安全性等很多挑战。”上海人工智能实验室主任助理、领军科学家乔宇在大会上表示。

乔宇认为，这些讨论预示着，大模型虽然目前已经取得一定成果，但还有很多“乌云”。他判断，从2025年开始，大模型进入下一个阶段时，破解这些瓶颈的关键是创新和应用，在这方面DeepSeek带来了一些启发。

DeepSeek做的是体系化的创新，乔宇提到，“DeepSeek不仅技术系统做得好，而且将模型的架构、训练的方式和训练的框架高速并行，做体系化的优化，带来了非常大的效率提升与成本降低，语言大模型V3的训练，（成本）相当于Llama3的1/10。”

在这一基础上，乔宇补充表示，在大模型产业链上，DeepSeek所做的也只是中间模型和系统，“如果我们能将芯片、互联、框架、数据、模型、评测、应用做更好的体系创新，这里面会有更大的空间，一方面将模型做得更强，一方面也可以将效率做得更高”。

在接受采访时，上海人工智能实验室青年科学家何聪辉认为，DeepSeek所做的事情一定程度上打开了大模型当前的一些瓶颈。“它让整个训练成本降下来了，会让更多的研究者能参与进来，另一方面，将强化学习直接引入到后训练的这个阶段，也会促进很多科学方面的探索，且它本身很强的推理模型，也可以作为一个研究科学发现很好的起点。”

此前，数据语料的缺乏，被认为是Scalling law“撞墙”、迭代放缓的核心原因。“互联网上的人类语料是基本原料，已经耗尽了，虽然模型变大了，但是输入没有变得更多，无法学习新知识。”一位从业者对记者表示。

何聪辉长期研究大模型的数据语料方面，他对记者表示，“现在说的数据用完了，更多是说已知的一些公开数据模型都见过了，但其实并没有充分利用起来，质量还有持续提升的空间，还没有到头。”

何聪辉表示，质量的提升能够让数据的效率更高，模型可能不需要那么多数据，这样会带来进一步的计算成本降低，并进一步带动越来越多人进来优化它。

在另一场论坛上，MiniMax副总裁刘华也在演讲时提及大模型“撞墙”这一话题，他更多认为，现在的大模型处于快速的发展阶段，原因在于，2024年底Open AI推出了o1，这意味着在推理阶段大模型还在“scaling Law”，随着DeepSeek 1月的开源，大家又更熟悉了什么是强化学习。

“这一切的一切都没有结束，未来两到三年，类似GPT3.5到GPT4这样的技术再发生两次是高度可预期的。”刘华的判断是，未来两到三年大模型会飞快地发展，技术上限远没有看到。

对于未来，业界目前相对较为乐观。乔宇认为，2025年有三方面值得关注的事情，包括更多的多模态智能涌现，以及AI助力科学发现等。

在过去一两年中，多模态在语言上取得突破之后，对图像、视频、音频等的多模态引入，行业期待非常高，但现在很多的模态只是在对齐理解有进展，真正像语言一样的涌现能力，将生成理解相结合，能够从多模态中间发现知识的能力还非常有限。乔宇认为，2025年这方面或许会有值得期待的进展。

其次，在“AI4S”相关的科学智能方面，是未来人工智能的高价值区域，人工智能不应该简简单单陪我们聊聊天、画画，更多的是帮人类进行知识发现。

“我们有了AlphaFold这样单点的巨大成功，但是人工智能的潜力绝对不在于专项智能，而是如何能够实现从科学假设的提出，到实验的设计，甚至包括实验的自动化完成，以及科学知识发现的全流程。”乔宇提到，期待的是，2025年AI会不会在某一个重要的科学问题突破上体现作用。

举报第一财经广告合作，请点击这里此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作者

刘晓洁