DeepSeek R2究竟何时发布?

DeepSeek R1的横空出世让国内外AI格局开始重新洗牌,而关于它的下一代产品DeepSeek R2的传说,在AI圈从未平息。 从今年2月底的“DeepSeek开源周”开始,就有传言DeepSeek R2将在五月前发布。4月27日,Hugging Face CEO发推暗示DeepSeek R2即将发布,关于R2的各种"内幕消息"也开始...

DeepSeek R2究竟何时发布?

DeepSeek下一代模型DeepSeek R2大概率不会完全满足超高期待

DeepSeek R1的横空出世让国内外AI格局开始重新洗牌,而关于它的下一代产品DeepSeek R2的传说,在AI圈从未平息。

从今年2月底的“DeepSeek开源周”开始,就有传言DeepSeek R2将在五月前发布。4月27日,Hugging Face CEO发推暗示DeepSeek R2即将发布,关于R2的各种”内幕消息”也开始在X平台上病毒式传播。

在第一波大范围的爆料中,描绘了一个性能爆表的超级模型:每次推理激活的参数量翻倍,成本方面也实现了革命性突破,比GPT-4低97.3%;增加了视觉推理能力,更令人瞩目的是,除了英伟达芯片,DeepSeek还将适配国产芯片。

然而,时间来到五月中旬,预期中的R2仍未现身,X平台上又掀起了新一轮更为惊人的爆料——据称DeepSeek R2已彻底抛弃Transformer架构,转而采用一种还未理论化的超前方法,只需一次对话就能发现室温超导材料……

这些层出不穷的爆料的可信度究竟如何?消息源头在哪里?为何会越传越离谱?如果这些爆料中确有真实成分,DeepSeek R2的性能又将达到怎样的高度?

微博AI访谈栏目#AI Deep Talk#本期有幸邀请到了KCORES开源硬件项目联合创始人karminski-牙医、前Cisco架构师Transformer-周、金融科技公司AI总监梁赛、前明星模型团队人才负责人Max_For_AI,一起聊聊DeepSeek R2的爆料有多少是真的!

DeepSeek R2究竟何时发布?

梁赛:DeepSeek R2为何“姗姗来迟”,他们在等待什么?

karminski-牙医:以我来看,R2其实等待的有两个事情,一个是在打磨数据,另外一个是多模态的建设。现在各个头部模型,都支持多模态。但这些模型目前大多数只是把附件里的文本挑出来,不是真的支持全部模态。并且在年初他们发布的多模态的模型(注:今年3月,DeepSeek推出多模态模型Janus Pro,整合了文本、图像、视频的输入和输出能力)也仍然是验证性的。所以我觉得R2另外一部分缺失的是多模态这方面。

Max_For_AI:其实从DeepSeek的角度来看,它其实是可能要等V4这个基座模型先训好,在这个基础上再去做一些强化学习。那现在来看V4应该是已经快了。按照时间推算,包括之前发布的Janus和多模态相关内容,以及前两天的论文,这些通常是在收尾阶段才会发表。既然收尾工作已经完成,那接下来我们可以期待下一步的进展。

Transformer-周:在我看来DeepSeek比较务实,不会推出过于超前的东西,但容易做出超出预期的成果,比如MLA。它会在细分领域优化,多模态是DeepSeek的重点,若再不发布可能会有问题。第二点,我认为R2在agent工具调用和编排上会有突出能力。大家可以参考DeepSeek以前的模型发布策略,它会follow目前世界几家顶尖模型的策略。从农历新年到现在,模型市场变化中,最大的变化在于工具调用能力。DeepSeek可能会在工具调用和编排上进行原型验证,因为他们的目标是对标世界顶尖的AGI。

梁赛:我记得梁文峰曾在一篇采访中说过,AGI路上有三个要解决的重点。第一个是数学跟代码,第二个是多模态,第三个就是语言模型。V3相当于是语言模型已经达到一定水平了,V4肯定会更进一步。对于数学能力,五一前DeepSeek已经发布了Prove-Math模型,DeepSeek在此早有布局。而多模态能力,谷歌刚发布Veo3,DeepSeek也发布了Janus,我们对DeepSeek在多模态领域的期待更高。

梁赛:第一波爆料中有没有真的部分?大家怎么看?

Max_For_AI:外面的传言都太抽象了。我们这种算是业内人士,一听就知道这是肯定假的。当然第一波爆料我看DeepSeek的朋友,他们自己辟谣过。我觉得成本肯定会降,但具体降多少不好说。作为一个全新的架构,Janus的目的就是为了降成本。图片输入输出不用过两遍了,对整个成本去往下打非常有帮助。前一段发的数学模型,其实也是基于V3的。基于V3就已经达到这种水平了,下一代性能会有很大提升。

梁赛:X平台上还有个“草莓哥”,他说跟北京DeepSeek团队打完电话非常震惊,彻底放弃Transformer架构,转用“递归认知网格”(Recursive Cognition Lattices)技术,模型推理性能提升400倍……对模型架构本身,R2有没有可能深入到底层做颠覆性的创新?

Transformer-周:不太可能。我个人不太认为DeepSeek会造出特别超模的东西,但刚才也说过,DeepSeek的出品一定会超过你的期待。比如不用Transformer,这个我认为不可能。至少在没有其他大模型厂商完全去掉Transformer的情况下,DeepSeek不会这么做。第二,它会基于Transformer的一些特定模型层进行改动,比如制约attention的MLA。MLP层,用更好的MoE来解决,这是DeepSeek的长项,或者说是量化工程师的基操,DeepSeek主要的能力边界就在这儿。此外,模型的代码和数学可以通过标准的值来validation(确认),如果DeepSeek能把普通回答的准确率提升多少个百分点,就已经算很大的成功了。同时再把function call或者MCP这种工具的调用能力提升一个台阶,下一代DeepSeek模型就足够震惊这个世界了,不太需要底层突破。

karminski-牙医:我从“计算强度”的视角给也给大家补充一下。我们可以用TFLOPS(算力)除以显存带宽(数据访问能力)来衡量一个设备的理想计算强度。以H100 80G为例:204.9 TFLOPS / 2.04 TB/s ≈ 100.4 FLOPS/Byte。当任务计算强度大于此值,会遇到算力瓶颈,可通过加更多机器并行扩展解决;小于此值时,则会遇到访存瓶颈,受限于显存带宽。“草莓哥”声称“每TFLOPS推理能力提升400倍”,这意味着完成同样任务只需1/400的算力。这会导致计算强度大幅降低,GPU大部分时间都在等待数据读取。即使优化实现,也会因硬件限制(特别是显存带宽)而难以发挥效果。所以,”草莓哥“爆料既在直觉上站不住脚,也在理论上站不住脚。

梁赛:至少有四五个人在群里转过“草莓哥”的截图给我看,问是不是真的。我说内容是假的,但焦虑是真的。尤其国外对于中国AI的发展、进步,还是非常关注的。因为中国在尤其缺乏高端显卡时,在这种情况下能够做出很低训练成本的DeepSeek R1,确实是让他们非常焦虑。

梁赛:R1的下一个版本,会把多模态能力融合到语言模型里吗?

Transformer-周:如果把多模态作为未来的训练加速方向,那么输入输出的模态越丰富,训练的复杂度和丰富度就会越高,这就需要更强的多模态支持能力。但从Janus的表现来看还比较失望。作为一家以后端基础设施起家的公司,DeepSeek在处理基于文本的数据上很有经验,但在语音、视频、图片等非文本模态上还面临挑战。这个问题OpenAI也同样存在。对DeepSeek的下一版模型,我持保守态度,只要能实现基础的多模态能力,就已经是一个好的开始。

karminski-牙医:我这点赞同周老师的。目前最大问题是训练样本质量不够好。我们期待的多模态闭环(识别-文本-生成-视频-识别)还无法实现。文本数据已经很丰富,但视觉数据的样本量和标注质量都不够。DeepSeek肯定是要去做多模态模型的,而且是要做集成。但目前来看,我觉得与其考虑做自回归模型,还是做传统Transformer,又或者说把它俩怎么样融到一起之前,数据的质量问题需要进一步地去解决。

Max_For_AI:除了缺数据之外,我其实更想提算力的问题。不管在外面怎么传,其实国内的团队一般算力都不富裕,这限制了训练轮次和容错空间。如果DeepSeek没能像训练语言模型时充分把每张显卡利用到极致的情况下去训多模态,在没有更多算力集群的情况下,训练速度会比较慢。此外,下一代预计会是原生多模态模型,因为DeepSeek从去年就开始准备数据标注工作了。

梁赛:从V3到下一代,DeepSeek模型会“撞墙”,或者说碰到性能“天花板”吗?

Max_For_AI:我觉得“撞墙”是一个普遍的现象。比如Grok、OpenAI最近的几个模型,其实没有明显变化。但是我觉得国内的预训练模型还没达到GPT4.1或者是Claude 3.5的水平,还有1-2个版本提升空间。看好V4成为第一个“撞墙”的国内的模型。

karminski-牙医:以我的理解,V4可能是一个参数量更大的模型。目前模型虽然小巧高效,但知识量有限。如果不增大参数量,DeepSeek可能只是小规模发布,而不是面向业界,发布一个基座模型。当前面临的主要挑战是,各项基准已刷到极限,优质数据难觅。AI可以辅助写代码,但造数据本质上离不开大量的高质量人才参与。我对DeepSeek的工程能力很有信心,他们的开源周一发布,整个社区全都炸掉。主要问题在于模型发展方向的选择和数据质量。比如Google最近也在尝试用diffusion生成文本,各个AI巨头都在往不同的方向尝试。

Max_For_AI:我很期待V4能在架构上有一点小优化。其实最我最近看了很多的这个论文,都在看能不能用RNN替换掉部分transformer层。除了腾讯混元,工业界在这方面的尝试不多,可能这样在成本上更有优势。

Transformer-周:我们还是在DeepSeek没有发新东西之前,看一下这个最近几个月其他top AI公司在做什么,DeepSeek一定想在某一个方向上给他们沉痛一击。说白了对模型发布的声量也好,或者以小搏大的叙事来讲的话,都非常博眼球。不然没必要非得大年腊月28的时候发个模型,对吧?我们都在过年,大家都在包饺子,突然搞出DeepSeek R1(满血版),其实它还是有一些小心思的。凭这个逻辑的话去分析,其实大家不难看出最近的主要维度就是多模态和工具调用。多模态刚刚大家都说了,缺卡缺数据。那另一种相对简单的维度就是调用工具。我们可以先留一个逻辑在这儿,到时候看看新模型发布后会不会兑现。在agent这个赛道中,DeepSeek可能想去和o3比一比,或者和Claude的Deep Thinking比一比。

梁赛:这些传言基本都是“出口转内销”,肯定不是DeepSeek营销,但因为太红,所以是非多。很多自媒体都在炒作,因为这些爆料传的都是非常高端的这种专业词汇,普通人分辨不出来,只是觉得国产模型好厉害了。大家觉得如果R2没达到爆料的水平,会有什么影响?

Transformer-周:我觉得大概率不会完全满足超高期待。毕竟”家里的米盐油”可能没那么全,不可能每个版本都超预期。但DeepSeek已经很勇敢了,希望大家给更多的空间,更多的时间,最终胜利一定是站在我们这边的,对吧?

Max_For_AI:DeepSeek实际上已经被架到火上烤了,它们承载了太多期望。这种过分热捧其实是种捧杀。但按我对他们的了解,他们自己内部要求很高。如果做得不行、翻车是百分之百不会往外发。新发布一定是他们觉得能造福很多人很多人的成果。但是任何事物达到全民皆知的程度的时候,就会超出本身的控制,还是希望大家理性一点。

karminski-牙医:如果把DeepSeek拟人化的话,它的形象很崇高。它的目标就是实现AGI,既不面临融资的压力,也不面临资金流的压力,甚至内部的量化基金还可以为自己造血。并且我觉得现在一个还算理智的模型厂商,都不会再翻出Llamas的前车之鉴了。有鉴于此,我觉得DeepSeek大概率应该是符合预期的。即使不符合预期,怀抱理想主义纯粹的公司和人,在这个世界上都太少太难遇到,我们也应该给到宽容。

梁赛:其实我们从版本号来看,R1到R2应该是有很大跃升的。V3之后发布的模型,它的命名是日期(DeepSeek-V3-0324),相当于是个补丁版本。但实际上这个补丁版本的提升是非常大的。如果换在别的老板那里,他可能就直接就当V4发出来都有可能。所以说DeepSeek在这个版本的迭代的上面命名上,其实对自己要求还是很高的。

梁赛:DeepSeek-R2最有可能在哪方面取得突破?这将影响国内外的AI格局?

Max_For_AI:按我的期望,希望能开源一个Claude 3.5-3.7级别的多模态模型。这对开源生态将是巨大震撼。因为现在还没有这个级别且成本低的开源模型。如果Claude 3.7开源了,对中美影响都很大。第三方MaaS厂商可以部署高级别低成本的模型,这都是非常颠覆性的。

karminski-牙医:我觉得讨论清楚DeepSeek目前对多模态的态度,就可以预测未来的突破是什么。DeepSeek现在对多模态可以分成两种情况:
1.公司的确缺人,没时间搞多模态,所以人力都用在刀刃上,一心搞文本大模型的SOTA。
2.不屑于搞多模态,真正的AGI就是数学+编码能力强,其它靠边站。
而从DeepSeek论文中我们也看到各种极致优化。我也更倾向于情况2,即多模态目前不是DeepSeek的主要追求。那么DeepSeek-R2必然是一个数学和编码水平领先的开源大模型。

Transformer-周:在我看来,说白了就是“成年人,我全都要”,又想让它在代码和数学上有很大的突破。同时还希望在标准GPQA上,能有一些变化,尤其关于事实性问题。这是其他模型公司暂时没解决的。如果每个方面都很强,才更接近AGI。否则可能只能执行任务,做不了“指挥行动的中心”。但这确实不容易,否则大家也不会都盯着刷benchmark了。

查看原文

相关图书

没有相关内容!