【评测】DeepSeek R1 0528|Claude Opus 4|Sonnet 4|Gemini 2.5 Pro

同样的提示词分别发给 Claude Opus 4、Sonnet 4、Gemini 2.5 Pro 以及 DeepSeek R1-0528 ,让它们在六个越来越变态的前端开发任务中一决高下,让你清晰的看到 DeepSeek R1 0528 有多强。

广告也精彩
【评测】DeepSeek R1 0528|Claude Opus 4|Sonnet 4|Gemini 2.5 Pro

同样的提示词分别发给 Claude Opus 4Sonnet 4Gemini 2.5 Pro 以及 DeepSeek R1-0528 ,让它们在六个越来越变态的前端开发任务中一决高下,让你清晰的看到 DeepSeek R1 0528 有多强。

这个测试真的是又费钱又费人, 直接把 POE 额度 Claude 额度还有API 都烧没了,希望各位可以给点个赞或者转发,我们开始看案例。

知道有些朋友等不及,先说结论:

  • Deepseek-R1-0528 在前端能力上稍逊于 Opus4,彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。
  • 基本上 Opus 可以完成的任务 R1 都能完成,,甚至 Opus 4 不能完成的 R1 也可以完成,只是完成度和结果质量上稍微差一些。考虑到 R1 跟这三者的价格差异,这个成绩已经非常邪门了,tmd 无法想象 R2 的质量。

测试 1:仓库管理系统

先来一个昨天跑的比较复杂的效果,我会让这四个模型分别生成一个完整的仓库管理系统,支持商品管理、商品的出库、入库、还有对应的看板。
这个案例上除了 Deepseek 全部翻车了,Claude 4 翻的有点离谱了说实话。

Deepseek-R1-0528:
R1 的升级版非常强,你看这个界面非常的专业,而且也可以新建商品,正常执行出库入库,把商品、库存管理、库存报表分了三个页面整体非常清晰,还有一个专门的看板页,他还写了一些假数据方便测试,其他几个模型没数据,添加商品不能用,测试就完全没办法进行了。

Claude Opus 4:
上来就拉了坨大的,页面非常简单,采用的是顶部导航的方式,而不是 Saas 平台常见的侧边栏,而且添加商品一点保存就报错,测试没办法进行了。

Claude Sonnet 4:
相较于 Opus 4 的界面更加的简陋,而且点击添加商品按钮就没有反应了,都没有展开表单弹窗,那其他的页面自然都是摆设。

Gemini 2.5 Pro:
谷歌这个比 Claude 好点,可以添加商品可以运行,但是有 Bug,我第一次试的时候可以,录视频就不行了,不过 Gemini 的交互设计的很复杂,出入库和记录都在一个表格里面,有点难度分。

测试 2:点阵动画编辑器

考验视觉能力的测试,我让他们几个分别用 P5.js 做一个点阵动画的编辑器,支持运动方式、调整点的形状、大小、速度等一堆条件。

说实话,我是没想到这个测试其他模型会这么惨烈的,除了 Deepseek-R1 其他几个模型的动画完全都没办法动。

Deepseek-R1-0528:
非常完美,每个按钮和滑块都能正常操作,点整也在正常运动。他甚至给加了点阵的数据,夜间模式切换后颜色也没问题,如果非要挑刺的话就是颜色选择的选中状态有一点点问题,但是这个问题相较于其他几个模型的惨烈表现根本不算问题。

Claude Opus 4:
好消息有点阵,坏消息它不动的,右边的内容倒是可以正常操作,但是夜间模式切换后的配色有问题。

Claude Sonnet 4:
这个就别说了,相当拉跨,点阵都没有的,甚至连按钮的选中态都没有,滑块只有点,不如用默认组件呢。

Gemini 2.5 Pro:
也是报错没有点阵,右侧内容都正常操作,主题切换也没问题,不过用的默认组件美观度差点。

测试 3:图片渐变色提取工具

这个是我之前写过的一个工具,逻辑描述不多,样式描述多一点,主要功能是从图片中提取五组渐变色。

这个案例上 Claude 终于是扬眉吐气正常了,Deepseek-R1-0528 的页面细节和美观度非常厉害,但是没有实现功能,Opus 4 和 Sonnet 4 页面都简陋些,但是起码功能是好的,Gemini 则都不行。

Deepseek-R1-0528:
Deepseek 再用上了我的提示词之后页面的美学表现真是没得说,而且他还自己给页面加了很多方便 SEO 的内容,比如应用场景介绍,处理时间等等,渐变色的展示卡片也非常细致,就是没有实现取色逻辑。

Claude Opus 4:
这次 Claude 终于没让人失望,完成了页面功能,但页面内容非常简陋,基本只有一个放图片的和结果,而且取色逻辑也很差,但起码能用了。

Claude Sonnet 4:
Sonnet 4 也完成了功能,我甚至觉得 Sonnet 的结果比 Opus 还要好一些,当然丰富度上还是没有 Deepseek 强。

Gemini 2.5 Pro:
这次是最拉的,不止页面细节和美观度不行,功能也没有实现,启动直接报错。

测试 4:白噪音日签网站

接下来是一个可以播放白噪音的日签网站生成,很适合做新标签页的插件,支持从 Spotify 播放白噪音,网页会展示背景图片和当前的时间。

这个测试其实就纯粹看各个模型对于美学的表现的理解了,这种展示类型的网页一般都能完成。

只能说 Claude Opus 4 在这块还是很权威的,各种细节表现都很好,Gemini 2.5 Pro 也不错,甚至给图片的切换加上了动效,Deepseek 和 Sonnet 4 坐一桌了。

Deepseek-R1-0528:
我先跑的 Deepseek,本来以为已经很好了,整体美学上有问题的第一个是左下角的音乐按钮有点扁,然后就是名言的部分,不应该加黑色遮罩,文字的对齐方式也有点怪,不过他也给刷新加了动效。

Claude Opus 4:
Opus 4 的这个美学真的无可挑剔,各个字体的大小比例,间距都非常舒服,而且还给名言加上了引号人物名称和引号的透明度还做了处理,就连 Spotify 播放器都套了一个 UI 做了展开收起的动效,太完美了。

Claude Sonnet 4:
Sonnet 4 的效果跟 Deepseek 问题很像,音乐播放按钮、文字的大小、对齐方式和间距都可以继续优化。

Gemini 2.5 Pro:
Gemini 的效果也不错,如果去掉文字的投影就更好了,它也针对 Spotify 播放器 UI 做了处理,文字细节也没啥问题,切换动效很明显图片有个拉伸的效果。

测试 5:睡眠 APP 页面生成

接下来是移动设备应用的测试,让他们分别写一个睡眠监测应用,提示词中会提出对应的技术栈和设计要求,同时会要求生成多个可交互的页面。

在移动端的逻辑和界面上,Cluade Opus 4 再次展现了他的强大,完成了多个页面逻辑也不错,其他几个模型都只生成了一个页面,不过 Deepseek R1 0528 这次的审美突然在线了,样式美观度做的很好,虽然生成了单个页面但是很完整。

Deepseek-R1-0528:
只生成了一个页面,但是整体的审美不错,卡片的细节和图标的处理都很好,整个页面也很完整很长,另外还给导航做了响应式设计,在移动端和桌面端完全不同。

Claude Opus 4:
确实强,只有 Opus4 完整生成了全部的页面,不过这次的审美就不太行了,完全是用做网页的逻辑做的,导航的图标小的可怜。

Claude Sonnet 4:
只生成了单个页面而且还报错了,页面的审美也不太行,属于将就把任务完成了。

Gemini 2.5 Pro:
谷歌每次都跟别人不一样,真的一个页面一个页面生成,给了四个文件,相互之间不能交互,另外页面全部报错,每个页面都只有导航没有内容,这就有点拉了。

测试 6:复杂功能俄罗斯方块

最后还是小游戏测试收尾,我设计了一个比较复杂的俄罗斯方块游戏,有特殊方块,还有主题切换、方块落点预测、方块暂存等一堆功能,可以说是终极考验了。

在小游戏上 Claude 是有东西在的,不管是 Opus 还是 Sonnet 都按照要求生成了对应的俄罗斯方块,特别是特殊方块这个逻辑,Deepseek搞定了 Claude 都忽略了的主题,但是落掉了特殊方块,Gemini 2.5 Pro 就惨了生成的不能玩。

Deepseek-R1-0528:
非常好中规中矩的完成了任务,但是丢掉了特殊方块的设计,干脆就没做,可能是提示词遵循的问题,整个网页更像游戏的界面所有的按钮都像正常的组件。

Claude Opus 4:
完成了特殊方块的逻辑其他逻辑也没问题,但是忽略了主题切换这个提示词,他没做,相较于 DeepSeek 的问题要小一些,但是界面是写死的完全没有响应式逻辑,比例稍微不对几个按钮就点不到了。

Claude Sonnet 4:
跟 Opus 类似,甚至我觉得 Sonnet 4 完成的比 Opus 要更好,页面的适配度也不错,这个感觉是Sonnet赢了,所有需要做的功能他都做了。

Gemini 2.5 Pro:
涉及到复杂逻辑 Gemini 几乎每次都拉跨,这次是完全没办法玩,因为砖块的落点有 Bug 完全看到不会落在哪里,垫底。

看到这里,我想你已经和我一样,被 DeepSeek-R1 的表现整麻了。

很难想象这只是一个小的模型升级带来的提升,再来看看跟 DeepSeek R1 0528 对比的这几个模型的价格。

Opus 4 是他的 30 倍,我这还是用的 Openrouter 的价格算的,要是算官方会更离谱。

转自 歸藏的AI工具箱

相关图书

DeepSeek 发布 DeepSeek V3.1,DeepSeek R2 发布时间仍未明确

DeepSeek小助手今晚在官方群内宣布线上模型版本已升级至 DeepSeek V3.1,上下文长度拓展至128k,可通过官方网页、APP、小程序测试,API接口调用方式保持不变。 8月14日,DeepSeek App发布了 DeepSeek 1.3.0版本,支持对话内容生成分享图功能,用户的问答对话可通过原生功能生成图片。

Nano Banana Pro 免费使用网站推荐【持续更新】

相信大家已经对近期大火的 Nano Banana Pro 心动不已,J.Cling 为你精准了一些友好、稳定且开放的Nano Banana Pro免费使用站点。各有各的优势,配合上提示词,可以创造出各种各样不同的玩法!