DeepSeek发布全新开源版本R1,性能直追OpenAI顶级o3模型!

昨日凌晨,全球著名的开源大模型平台deepseek推出了其r1系列的全新0528版本。该版本尚未发布详细说明,仅以一种低调的方式公开上线。预计不久之后,deepseek将发布最新模型卡,全面介绍新版本的各项功能与特性。
开源地址:https://www.php.cn/link/bfda4ecd52a662dc46ed0bbf1f7b495a
尽管最新尚未正式公布细节,已有用户迫不及待地体验了新版R1并进行了测试。在知名代码评测平台Live CodeBench上,R1的表现被认为可以媲美OpenAI最新高端版本的o3模型。
部分用户对新版R1的风格进行了对比测试,发现其表现几乎与OpenAI的o3模型一致。R1-05-28在回应中展现出类似o3-2.5专业风格的特点,例如箭头和星号的使用与o3高度相似,且在结尾部分采用“why it works”的表达方式增强了说服力。即便OpenAI投入了大量精力,DeepSeek依然成功实现了这一目标。如果这已经达到了o3的水平,那么未来的R2版本将会更加智能,令人期待。
Hyperbolic Labs联合创始人兼CEO表示,新版R1仍是唯一能正确判断9.9与9.11哪个更大的模型。
,时长00:40
知名AI评论员Haider指出,大师兄DeepSeek强势归来。新版DeepSeek R1在编程能力方面表现出色。他曾发起一个编程挑战,要求模型创建一个单词评分系统。经过短暂推理后,模型生成了两个文件:一份结构清晰的代码和一组可执行的测试用例,并且这些测试用例首次运行即全部通过。此前只有o3模型能达到这种水平,而现在没有其他模型能超越。这是他在该任务中见过表现最优的模型。
我持续对其进行测试,发现它表现非常出色,但目前响应速度似乎有所下降,思考时间变长。
若其他基准测试能够验证这一点,我猜测DeepSeek原本可能打算将这个版本命名为R2发布。然而,考虑到他们近期推出的产品已遥遥领先,直接使用R2名称可能会让用户产生过高期望,进而导致失望。因此,他们可能选择继续将其作为全新的R1发布。现在的问题是,我们还需等待多久才能见到真正意义上的R2版本。
最新的DeepSeek R1表现相当亮眼。它现已具备类似o3修正自身思考过程(CoT)的能力,同时也能够像Claude一样创造性地构建完整的世界观。这些都是此前R1版本所无法实现的功能。
看到新版R1在编程方面的卓越表现,令我感到十分惊讶。用相同的提示测试了最新的Opus 4,结果发现Opus 4仅略微领先一些。这一差距令人印象深刻……
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
山姆会员卡绑定教程:App轻松添加购物卡步骤
山姆会员店怎么绑定购物卡?很多小伙伴买了山姆的购物卡之后,不知道要在哪里绑定,那么哪里可以绑定购物卡呢,不知道的接下来就跟着小编一起来了解一下山姆会员店绑定购物卡方法。山姆会员店绑
笔趣阁正版APP如何辨别?官方下载渠道指南
在网文阅读爱好者的世界里,笔趣阁曾是一个热门的存在。然而,如今市场上笔趣阁app版本众多,让人难以分辨哪个才是正式版。正式版笔趣阁app通常具备合法的运营资质和正规的版权渠道。它不
行者APP头像更换教程 | 3步快速更改个人头像
在行者app中更换头像,能让你的个人形象更具个性与辨识度。以下是详细的换头像步骤:准备合适的头像首先,确保你拥有一张想要设置为头像的图片。图片需符合平台规定的尺寸和格式要求,一般来
QQ音乐网赚畅听包上线,看广告享听歌权益
近日,腾讯 QQ 音乐悄悄上线了一项豪华绿钻“网赚畅听包”会员,连续包月首月 1 元至 5 元左右,后续每月 10 元。用户在付费后,仍需每日观看广告(每天观看 4 则广告、每则至
微信亲属打车功能上线:老人打车免密代付可分享行程
9月26日消息,虽然现在很多手机App都进行了适老化适配,但是很多操作对于老年人来说依然过于复杂,他们很难理解,比如打车的选择自己位置、目的地,以及支付等问题。自己操作步骤繁琐容易
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















