GDC上DeepSeek引发热议:大模型技术上限远没有看到

发布日期:2025-04-18 07:59    点击次数:127

2024年年底以来,围绕大模型有非常多讨论,其中一个声音是,技术上Scalling law(尺度定律)面临“撞墙”,大模型迭代放缓。另一方面,大模型在落地应用上也有诸多掣肘。这些话题也是刚刚过去的GDC(全球开发者先锋大会)讨论的一个焦点。

“行业非常关注产业落地,但和很多企业聊的时候,大家经常说的是,大模型适合做演示,在真正落地的时候存在着成本、效率、可靠性、稳定性和安全性等很多挑战。”上海人工智能实验室主任助理、领军科学家乔宇在大会上表示。

乔宇认为,这些讨论预示着,大模型虽然目前已经取得一定成果,但还有很多“乌云”。他判断,从2025年开始,大模型进入下一个阶段时,破解这些瓶颈的关键是创新和应用,在这方面DeepSeek带来了一些启发。

DeepSeek做的是体系化的创新,乔宇提到,“DeepSeek不仅技术系统做得好,而且将模型的架构、训练的方式和训练的框架高速并行,做体系化的优化,带来了非常大的效率提升与成本降低,语言大模型V3的训练,(成本)相当于Llama3的1/10。”

在这一基础上,乔宇补充表示,在大模型产业链上,DeepSeek所做的也只是中间模型和系统,“如果我们能将芯片、互联、框架、数据、模型、评测、应用做更好的体系创新,这里面会有更大的空间,一方面将模型做得更强,一方面也可以将效率做得更高”。

在接受采访时,上海人工智能实验室青年科学家何聪辉认为,DeepSeek所做的事情一定程度上打开了大模型当前的一些瓶颈。“它让整个训练成本降下来了,会让更多的研究者能参与进来,另一方面,将强化学习直接引入到后训练的这个阶段,也会促进很多科学方面的探索,且它本身很强的推理模型,也可以作为一个研究科学发现很好的起点。”

此前,数据语料的缺乏,被认为是Scalling law“撞墙”、迭代放缓的核心原因。“互联网上的人类语料是基本原料,已经耗尽了,虽然模型变大了,但是输入没有变得更多,无法学习新知识。”一位从业者对记者表示。

何聪辉长期研究大模型的数据语料方面,他对记者表示,“现在说的数据用完了,更多是说已知的一些公开数据模型都见过了,但其实并没有充分利用起来,质量还有持续提升的空间,还没有到头。”

何聪辉表示,质量的提升能够让数据的效率更高,模型可能不需要那么多数据,这样会带来进一步的计算成本降低,并进一步带动越来越多人进来优化它。

在另一场论坛上,MiniMax副总裁刘华也在演讲时提及大模型“撞墙”这一话题,他更多认为,现在的大模型处于快速的发展阶段,原因在于,2024年底Open AI推出了o1,这意味着在推理阶段大模型还在“scaling Law”,随着DeepSeek 1月的开源,大家又更熟悉了什么是强化学习。

“这一切的一切都没有结束,未来两到三年,类似GPT3.5到GPT4这样的技术再发生两次是高度可预期的。”刘华的判断是,未来两到三年大模型会飞快地发展,技术上限远没有看到。

对于未来,业界目前相对较为乐观。乔宇认为,2025年有三方面值得关注的事情,包括更多的多模态智能涌现,以及AI助力科学发现等。

在过去一两年中,多模态在语言上取得突破之后,对图像、视频、音频等的多模态引入,行业期待非常高,但现在很多的模态只是在对齐理解有进展,真正像语言一样的涌现能力,将生成理解相结合,能够从多模态中间发现知识的能力还非常有限。乔宇认为,2025年这方面或许会有值得期待的进展。

其次,在“AI4S”相关的科学智能方面,是未来人工智能的高价值区域,人工智能不应该简简单单陪我们聊聊天、画画,更多的是帮人类进行知识发现。

“我们有了AlphaFold这样单点的巨大成功,但是人工智能的潜力绝对不在于专项智能,而是如何能够实现从科学假设的提出,到实验的设计,甚至包括实验的自动化完成,以及科学知识发现的全流程。”乔宇提到,期待的是,2025年AI会不会在某一个重要的科学问题突破上体现作用。

举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

刘晓洁

相关阅读 DeepSeek在ESG实践中的问题分析

通过专业机构以DeepSeek为基础进行ESG垂直模型的训练,是DeepSeek应用于ESG领域更为高效的路径。

71 昨天 22:18 “万有AI力”的时代到来了

电力便宜,中国制造起来了。AI只有便宜了,才能像电一样无处不在。

364 03-08 11:35 AI进化速递丨DeepSeek回应“理论日利润346万元”

DeepSeek最高日赚346万元?官方称理论收益并非实际;清华大学2025年将适度扩招本科生,重点培养“AI+”拔尖创新人才。

31 03-02 20:35 深度 | 小模型打败大模型?患者挑战专家?医疗AI需要冷思考

医疗大模型“幻觉”无法消除,但或能”无限逼近准确结果“。

546 03-02 12:04 DeepSeek吃光了云端的闲置算力 | 海斌访谈

DeepSeek给云计算厂商带来立竿见影的回报。

324 02-27 21:00 一财最热 点击关闭

上一篇:没有了
下一篇:没有了

Powered by 神彩争霸8官方网站专业版下载 @2013-2022 RSS地图 HTML地图