
同样的提示词分别发给 Claude Opus 4、Sonnet 4、Gemini 2.5 Pro 以及 DeepSeek R1-0528 ,让它们在六个越来越变态的前端开发任务中一决高下,让你清晰的看到 DeepSeek R1 0528 有多强。
这个测试真的是又费钱又费人, 直接把 POE 额度 Claude 额度还有API 都烧没了,希望各位可以给点个赞或者转发,我们开始看案例。
知道有些朋友等不及,先说结论:
- Deepseek-R1-0528 在前端能力上稍逊于 Opus4,彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。
- 基本上 Opus 可以完成的任务 R1 都能完成,,甚至 Opus 4 不能完成的 R1 也可以完成,只是完成度和结果质量上稍微差一些。考虑到 R1 跟这三者的价格差异,这个成绩已经非常邪门了,tmd 无法想象 R2 的质量。
测试 1:仓库管理系统
先来一个昨天跑的比较复杂的效果,我会让这四个模型分别生成一个完整的仓库管理系统,支持商品管理、商品的出库、入库、还有对应的看板。
这个案例上除了 Deepseek 全部翻车了,Claude 4 翻的有点离谱了说实话。
Deepseek-R1-0528:
R1 的升级版非常强,你看这个界面非常的专业,而且也可以新建商品,正常执行出库入库,把商品、库存管理、库存报表分了三个页面整体非常清晰,还有一个专门的看板页,他还写了一些假数据方便测试,其他几个模型没数据,添加商品不能用,测试就完全没办法进行了。
Claude Opus 4:
上来就拉了坨大的,页面非常简单,采用的是顶部导航的方式,而不是 Saas 平台常见的侧边栏,而且添加商品一点保存就报错,测试没办法进行了。
Claude Sonnet 4:
相较于 Opus 4 的界面更加的简陋,而且点击添加商品按钮就没有反应了,都没有展开表单弹窗,那其他的页面自然都是摆设。
Gemini 2.5 Pro:
谷歌这个比 Claude 好点,可以添加商品可以运行,但是有 Bug,我第一次试的时候可以,录视频就不行了,不过 Gemini 的交互设计的很复杂,出入库和记录都在一个表格里面,有点难度分。
测试 2:点阵动画编辑器
考验视觉能力的测试,我让他们几个分别用 P5.js 做一个点阵动画的编辑器,支持运动方式、调整点的形状、大小、速度等一堆条件。
说实话,我是没想到这个测试其他模型会这么惨烈的,除了 Deepseek-R1 其他几个模型的动画完全都没办法动。
Deepseek-R1-0528:
非常完美,每个按钮和滑块都能正常操作,点整也在正常运动。他甚至给加了点阵的数据,夜间模式切换后颜色也没问题,如果非要挑刺的话就是颜色选择的选中状态有一点点问题,但是这个问题相较于其他几个模型的惨烈表现根本不算问题。
Claude Opus 4:
好消息有点阵,坏消息它不动的,右边的内容倒是可以正常操作,但是夜间模式切换后的配色有问题。
Claude Sonnet 4:
这个就别说了,相当拉跨,点阵都没有的,甚至连按钮的选中态都没有,滑块只有点,不如用默认组件呢。
Gemini 2.5 Pro:
也是报错没有点阵,右侧内容都正常操作,主题切换也没问题,不过用的默认组件美观度差点。
测试 3:图片渐变色提取工具
这个是我之前写过的一个工具,逻辑描述不多,样式描述多一点,主要功能是从图片中提取五组渐变色。
这个案例上 Claude 终于是扬眉吐气正常了,Deepseek-R1-0528 的页面细节和美观度非常厉害,但是没有实现功能,Opus 4 和 Sonnet 4 页面都简陋些,但是起码功能是好的,Gemini 则都不行。
Deepseek-R1-0528:
Deepseek 再用上了我的提示词之后页面的美学表现真是没得说,而且他还自己给页面加了很多方便 SEO 的内容,比如应用场景介绍,处理时间等等,渐变色的展示卡片也非常细致,就是没有实现取色逻辑。
Claude Opus 4:
这次 Claude 终于没让人失望,完成了页面功能,但页面内容非常简陋,基本只有一个放图片的和结果,而且取色逻辑也很差,但起码能用了。
Claude Sonnet 4:
Sonnet 4 也完成了功能,我甚至觉得 Sonnet 的结果比 Opus 还要好一些,当然丰富度上还是没有 Deepseek 强。
Gemini 2.5 Pro:
这次是最拉的,不止页面细节和美观度不行,功能也没有实现,启动直接报错。
测试 4:白噪音日签网站
接下来是一个可以播放白噪音的日签网站生成,很适合做新标签页的插件,支持从 Spotify 播放白噪音,网页会展示背景图片和当前的时间。
这个测试其实就纯粹看各个模型对于美学的表现的理解了,这种展示类型的网页一般都能完成。
只能说 Claude Opus 4 在这块还是很权威的,各种细节表现都很好,Gemini 2.5 Pro 也不错,甚至给图片的切换加上了动效,Deepseek 和 Sonnet 4 坐一桌了。
Deepseek-R1-0528:
我先跑的 Deepseek,本来以为已经很好了,整体美学上有问题的第一个是左下角的音乐按钮有点扁,然后就是名言的部分,不应该加黑色遮罩,文字的对齐方式也有点怪,不过他也给刷新加了动效。
Claude Opus 4:
Opus 4 的这个美学真的无可挑剔,各个字体的大小比例,间距都非常舒服,而且还给名言加上了引号人物名称和引号的透明度还做了处理,就连 Spotify 播放器都套了一个 UI 做了展开收起的动效,太完美了。
Claude Sonnet 4:
Sonnet 4 的效果跟 Deepseek 问题很像,音乐播放按钮、文字的大小、对齐方式和间距都可以继续优化。
Gemini 2.5 Pro:
Gemini 的效果也不错,如果去掉文字的投影就更好了,它也针对 Spotify 播放器 UI 做了处理,文字细节也没啥问题,切换动效很明显图片有个拉伸的效果。
测试 5:睡眠 APP 页面生成
接下来是移动设备应用的测试,让他们分别写一个睡眠监测应用,提示词中会提出对应的技术栈和设计要求,同时会要求生成多个可交互的页面。
在移动端的逻辑和界面上,Cluade Opus 4 再次展现了他的强大,完成了多个页面逻辑也不错,其他几个模型都只生成了一个页面,不过 Deepseek R1 0528 这次的审美突然在线了,样式美观度做的很好,虽然生成了单个页面但是很完整。
Deepseek-R1-0528:
只生成了一个页面,但是整体的审美不错,卡片的细节和图标的处理都很好,整个页面也很完整很长,另外还给导航做了响应式设计,在移动端和桌面端完全不同。
Claude Opus 4:
确实强,只有 Opus4 完整生成了全部的页面,不过这次的审美就不太行了,完全是用做网页的逻辑做的,导航的图标小的可怜。
Claude Sonnet 4:
只生成了单个页面而且还报错了,页面的审美也不太行,属于将就把任务完成了。
Gemini 2.5 Pro:
谷歌每次都跟别人不一样,真的一个页面一个页面生成,给了四个文件,相互之间不能交互,另外页面全部报错,每个页面都只有导航没有内容,这就有点拉了。
测试 6:复杂功能俄罗斯方块
最后还是小游戏测试收尾,我设计了一个比较复杂的俄罗斯方块游戏,有特殊方块,还有主题切换、方块落点预测、方块暂存等一堆功能,可以说是终极考验了。
在小游戏上 Claude 是有东西在的,不管是 Opus 还是 Sonnet 都按照要求生成了对应的俄罗斯方块,特别是特殊方块这个逻辑,Deepseek搞定了 Claude 都忽略了的主题,但是落掉了特殊方块,Gemini 2.5 Pro 就惨了生成的不能玩。
Deepseek-R1-0528:
非常好中规中矩的完成了任务,但是丢掉了特殊方块的设计,干脆就没做,可能是提示词遵循的问题,整个网页更像游戏的界面所有的按钮都像正常的组件。
Claude Opus 4:
完成了特殊方块的逻辑其他逻辑也没问题,但是忽略了主题切换这个提示词,他没做,相较于 DeepSeek 的问题要小一些,但是界面是写死的完全没有响应式逻辑,比例稍微不对几个按钮就点不到了。
Claude Sonnet 4:
跟 Opus 类似,甚至我觉得 Sonnet 4 完成的比 Opus 要更好,页面的适配度也不错,这个感觉是Sonnet赢了,所有需要做的功能他都做了。
Gemini 2.5 Pro:
涉及到复杂逻辑 Gemini 几乎每次都拉跨,这次是完全没办法玩,因为砖块的落点有 Bug 完全看到不会落在哪里,垫底。
看到这里,我想你已经和我一样,被 DeepSeek-R1 的表现整麻了。
很难想象这只是一个小的模型升级带来的提升,再来看看跟 DeepSeek R1 0528 对比的这几个模型的价格。
Opus 4 是他的 30 倍,我这还是用的 Openrouter 的价格算的,要是算官方会更离谱。
转自 歸藏的AI工具箱






相关图书
DeepSeek R1 模型小版本试升级已完成,用户可通过官方渠道测试,API 接口及使用方式不变。
DeepSeek R2究竟何时发布?
DeepSeek R1的横空出世让国内外AI格局开始重新洗牌,而关于它的下一代产品DeepSeek R2的传说,在AI圈从未平息。 从今年2月底的“DeepSeek开源周”开始,就有传言DeepSeek R2将在五月前发布。4月27日,Hugging Face CEO发推暗示DeepSeek R2即将发布,关于R2的各种"内幕消息"也开始在X平台上病毒式传播。
新DeepSeek官方:DeepSeek-R1-0528 思考更深,推理更强
DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。
新写AI提示词,完全遵循“不确定性原理”
最近因为Gemini、Claude都升级了模型,所以在试着更新提示词,利用模型的最新性能,过程真是痛并痛着。当然,不改也行,但是多数时候,都需要根据模型变化,调整一下。同一个模型版本迭代要改,换到其他模型执行任务更要改。(我称之为提示词移植)