DeepSeek R1 模型完成小版本试升级 – DeepSeek R1 0526

DeepSeek R1 模型小版本试升级已完成,用户可通过官方渠道测试,API 接口及使用方式不变。

广告也精彩
DeepSeek R1 模型完成小版本试升级 – DeepSeek R1 0526

DeepSeek R1 0526 幻觉好像是降低了,因为用的还少,只能主观感受,有DeepSeek R1第一版的评测可以参考:网页链接,参考@karminski-牙医 的观点:“DeepSeek 会不会觉得只要 MoE 架构或者模型内其它架构不更新,只是能力变强了不算大版本升级。所以才会一直叫 V3 / R1 …………….” ,应该是语料的进步。

但是幻觉的深度加深,或者说讨好/谄媚更严重了,比如问了DeepSeek R1 0526 是否支持System Prompt,在一轮我的prompt中体现的主观倾向偏positive的对话中,RDeepSeek R1 0526 给出了极其肯定的回答;新开一轮对话,以偏中性风格的方式提问,DeepSeek R1 0526 就开始含糊了。当然也可以解释为服从性更好,牛马味更浓。。。莫不是新语料都这样?

    • 关于大模型的谄媚行为,参考@蚁工厂:“OpenAI发了篇博客分析为啥上次自己的模型出现了大规模谄媚行为。大概原因是I尝试引入了基于用户反馈(如ChatGPT中的点赞和点踩数据)的额外奖励信号,通常这很有用,但此次更新中,这些变化可能共同削弱了控制谄媚行为的主要奖励信号的影响力,用户反馈倾向于更易接受的回应,可能放大了这种转变,用户记忆有时也会加剧谄媚效应。同时,在内测和A/B测试中,也没有发现该问题。(可能刚开始人们被拍马屁会觉得还挺舒服?). 后续改进手段包括更严格的行为评估、增加“alpha”测试阶段、重视互动测试、优化离线评估与A/B实验、加强模型行为原则评估及更主动沟通等。”

    一个有趣的发现,也是研究DeepSeek R1 是否支持system prompt时候读两个版本的V3 technical reports的发现,DeepSeek V3 一直以来都是支持system prompt,不知道DeepSeek R1是不是原理上不同,所以不支持system prompt;那么更进一步,那些用qwen和llama蒸馏的DeepSeek小参数模型,是不是应该是支持system prompt的呀?

      • 实践建议:跟DeepSeek R1 0528 结对的时候要特别注意prompt的中立性,一旦暴露一点点主观倾向性,DeepSeek R1 0528 就会顺着这个方向一路绝尘给你找理由,向你谄媚,坚定支持你的倾向性。也许吧,推理和幻觉是同一块硬币的不同两面。幻觉不是坏事,没准创造力会更强。 总之,实名感谢DeepSeek官方!

      转自 @-马小虎-

      关于测试

      DeepSeek R1 0528 测试结果得分都快赶上 o3-high 了…太强了…

        (LiveCodeBench 是从 LeetCode、AtCoder 、CodeForces 找题目然后测试)

        测试地址:livecodebench.github.io/leaderboard.html

        DeepSeek-R1-0528 的文本召回测试结果出了

          32K以内比之前的R1要好不少。但是60K下降了不少。120K作者还没测。这意味着在32K以内针对给定的材料使用新R1提问问题让它回答的话,准确度会好不少。

          测试地址:fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

          那么,问题来了,DeepSeek-R2 究竟何时发布?

          相关图书

          GitHub官方MCP市场

          GitHub 官方的 MCP(Model Context Protocol)市场 并不是一个独立的“市场”网站,而是托管在 GitHub 上的一个 MCP Registry(注册中心),它本质上是一个 开源社区驱动的工具和服务目录,用于帮助 AI 模型(如 LLM、AI Agent 等)通过标准化协议(即 MCP)与外部系统(如 API、数据库、文件、开发工具等)进行交互。

          如何通过提示词让AI翻译更加精准?

          从 AI翻译 效果上来说,先解释后重写会更自然,没有机器翻译的感觉,因为解释后会让上下文更充足,尤其是人工指定对特定的点进行解释,会帮助AI更好的理解上下文从尊重原意的角度来说,直译意译的方式会更尊重原意,也一般不会遗漏内容从自动化的角度,直译意译的方式提示词好写...

          DeepSeek V3.1 全新升级,DeepSeek V3.1 Terminus 发布

          🚀 DeepSeek V3.1 全新升级 → DeepSeek V3.1 Terminus 发布!最新的Terminus版本在V3.1基础上进一步强化,针对用户最关心的问题进行了重大改进。 ✨ 有哪些新变化? • 🌐 语言更流畅:显著减少中文和英文混用问题,不再出现奇怪的乱码。 • 🤖 智能体全面升级:代码智能体(Code Agent)与搜索智能体(Search Agent)的表现大幅提升,处理任务更高效、更精准。 📊📊 经多项权威基准测试,新版Terminus的输出更加稳定可靠,各项表现均优于上个版本。

          DeepSeek 发布 DeepSeek V3.1,DeepSeek R2 发布时间仍未明确

          DeepSeek小助手今晚在官方群内宣布线上模型版本已升级至 DeepSeek V3.1,上下文长度拓展至128k,可通过官方网页、APP、小程序测试,API接口调用方式保持不变。 8月14日,DeepSeek App发布了 DeepSeek 1.3.0版本,支持对话内容生成分享图功能,用户的问答对话可通过原生功能生成图片。