
DeepSeek R1 模型已完成小版本升级,当前版本为 DeepSeek-R1-0528。用户通过官方网站、APP 或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。API 也已同步更新,调用方式不变。
深度思考能力强化
DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。
更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

相较于旧版 R1,新版在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。这一进步得益于模型在推理过程中的思维深度增强:在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。
同时,我们蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),与 Qwen3-235B 相当。我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

其他能力更新
- 幻觉改善: 新版 DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45~50% 左右,能够有效地提供更为准确、可靠的结果
- 创意写作: 在旧版 R1 的基础上,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

- 工具调用: DeepSeek-R1-0528 支持工具调用(不支持在 thinking 中进行工具调用)。当前模型 Tau-Bench 测评成绩为 airline 53.5% / retail 63.9%,与 OpenAI o1-high 相当,但与 o3-High 以及 Claude 4 Sonnet 仍有差距。

此外,DeepSeek-R1-0528 在前端代码生成、角色扮演等领域的能力均有更新和提升。

API 更新
API 已同步更新,接口与调用方式保持不变。新版 R1 API 仍支持查看模型思考过程,同时还增加了 Function Calling 和 JsonOutput 的支持。
我们对新版 R1 API 中 max_tokens 参数的含义做了调整:现在 max_tokens用于限制模型单次输出的总长度(包括思考过程),默认为 32K,最大为 64K。请 API 用户及时调整 max_tokens 参数以防输出被提前截断。
R1 模型的使用方法详见 API 指南:https://api-docs.deepseek.com/zh-cn/guides/reasoning_model。
本次 R1 更新后,官方网站、小程序、App 端和 API 中的模型上下文长度仍为 64K。如果用户对更长的上下文长度有需求,可以通过其他第三方平台调用上下文长度为 128K 的开源版本 R1-0528 模型。
模型开源
DeepSeek-R1-0528 与之前的 DeepSeek-R1 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相关变动)。模型参数为 685B(其中 14B 为 MTP 层),开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。
DeepSeek-R1-0528 模型权重下载请参考:
Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528
Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
与旧版本的 DeepSeek-R1 保持一致,此次我们的开源仓库(包括模型权重)仍然统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
相关图书
DeepSeek R1的横空出世让国内外AI格局开始重新洗牌,而关于它的下一代产品DeepSeek R2的传说,在AI圈从未平息。 从今年2月底的“DeepSeek开源周”开始,就有传言DeepSeek R2将在五月前发布。4月27日,Hugging Face CEO发推暗示DeepSeek R2即将发布,关于R2的各种"内幕消息"也开始在X平台上病毒式传播。
GitHub官方MCP市场
GitHub 官方的 MCP(Model Context Protocol)市场 并不是一个独立的“市场”网站,而是托管在 GitHub 上的一个 MCP Registry(注册中心),它本质上是一个 开源社区驱动的工具和服务目录,用于帮助 AI 模型(如 LLM、AI Agent 等)通过标准化协议(即 MCP)与外部系统(如 API、数据库、文件、开发工具等)进行交互。
神级 GPT-5 提示词 – 号称可以发挥100% GPT-5 的潜力
来自 Reddit 的神级GPT-5 提示词,号称可以发挥 100% GPT-5 的潜力,感兴趣的同学不妨一试,另外 J.Cling 推荐阅读:智能体中文提示词大全 – ChatGPT、DeepSeek 等AI模型提示词模版、8个设计类提示词技巧 – 肉眼可见的提升成品设计效果、如何通过提示词让AI翻译更加精准?、如何通过提示词尽量降低各AI大模型平台的AI幻觉?
【提示词】将推特、微博等纯文本一键转成良好格式的博客
Text to Markdown Prompt 这套提示词适用于你要把推文、微博这种纯文本内容转成格式良好的博客,可以帮你生成标题、列表,和加粗要点、金句。


