DeepSeek R1 模型完成小版本试升级 – DeepSeek R1 0526

32 0 0

DeepSeek R1 模型小版本试升级已完成，用户可通过官方渠道测试，API 接口及使用方式不变。

作者

J.Cling

标签

AI AI专题 DeepSeek R1专题DeepSeek DeepSeek R1 DeepSeek R1 0526 R1 0526

DeepSeek R1 模型完成小版本试升级 – DeepSeek R1 0526

DeepSeek R1 0526 幻觉率好像是降低了，因为用的还少，只能主观感受，有DeepSeek R1第一版的评测可以参考：网页链接，参考@karminski-牙医的观点：“DeepSeek 会不会觉得只要 MoE 架构或者模型内其它架构不更新，只是能力变强了不算大版本升级。所以才会一直叫 V3 / R1 …………….” ，应该是语料的进步。

但是幻觉的深度加深，或者说讨好/谄媚更严重了，比如问了DeepSeek R1 0526 是否支持System Prompt，在一轮我的prompt中体现的主观倾向偏positive的对话中，RDeepSeek R1 0526 给出了极其肯定的回答；新开一轮对话，以偏中性风格的方式提问，DeepSeek R1 0526 就开始含糊了。当然也可以解释为服从性更好，牛马味更浓。。。莫不是新语料都这样？

关于大模型的谄媚行为，参考@蚁工厂：“OpenAI发了篇博客分析为啥上次自己的模型出现了大规模谄媚行为。大概原因是I尝试引入了基于用户反馈（如ChatGPT中的点赞和点踩数据）的额外奖励信号，通常这很有用，但此次更新中，这些变化可能共同削弱了控制谄媚行为的主要奖励信号的影响力，用户反馈倾向于更易接受的回应，可能放大了这种转变，用户记忆有时也会加剧谄媚效应。同时，在内测和A/B测试中，也没有发现该问题。（可能刚开始人们被拍马屁会觉得还挺舒服？）. 后续改进手段包括更严格的行为评估、增加“alpha”测试阶段、重视互动测试、优化离线评估与A/B实验、加强模型行为原则评估及更主动沟通等。”

一个有趣的发现，也是研究DeepSeek R1 是否支持system prompt时候读两个版本的V3 technical reports的发现，DeepSeek V3 一直以来都是支持system prompt，不知道DeepSeek R1是不是原理上不同，所以不支持system prompt；那么更进一步，那些用qwen和llama蒸馏的DeepSeek小参数模型，是不是应该是支持system prompt的呀？

实践建议：跟DeepSeek R1 0528 结对的时候要特别注意prompt的中立性，一旦暴露一点点主观倾向性，DeepSeek R1 0528 就会顺着这个方向一路绝尘给你找理由，向你谄媚，坚定支持你的倾向性。也许吧，推理和幻觉是同一块硬币的不同两面。幻觉不是坏事，没准创造力会更强。总之，实名感谢DeepSeek官方！

转自 @-马小虎-

关于测试

DeepSeek R1 0528 测试结果得分都快赶上 o3-high 了…太强了…

(LiveCodeBench 是从 LeetCode、AtCoder 、CodeForces 找题目然后测试)

测试地址：livecodebench.github.io/leaderboard.html

DeepSeek-R1-0528 的文本召回测试结果出了

32K以内比之前的R1要好不少。但是60K下降了不少。120K作者还没测。这意味着在32K以内针对给定的材料使用新R1提问问题让它回答的话，准确度会好不少。

测试地址：fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

那么，问题来了，DeepSeek-R2 究竟何时发布？

DeepSeek V3.1 全新升级，DeepSeek V3.1 Terminus 发布

🚀 DeepSeek V3.1 全新升级 → DeepSeek V3.1 Terminus 发布！最新的Terminus版本在V3.1基础上进一步强化，针对用户最关心的问题进行了重大改进。 ✨ 有哪些新变化？ • 🌐 语言更流畅：显著减少中文和英文混用问题，不再出现奇怪的乱码。 • 🤖 智能体全面升级：代码智能体（Code Agent）与搜索智能体（Search Agent）的表现大幅提升，处理任务更高效、更精准。 📊📊 经多项权威基准测试，新版Terminus的输出更加稳定可靠，各项表现均优于上个版本。