kaiyun中国官方网站让原来 1% 的测试驱散差距-开云(中国)真人有限公司

发布日期:2025-08-07 05:22    点击次数:164

kaiyun中国官方网站让原来 1% 的测试驱散差距-开云(中国)真人有限公司

北京时期 2 月 18 日,马斯克与 xAI 团队,在直播中认真发布了 Grok 最新版块 Grok3。

早在本次发布会之前,依靠着千般有关信息的抛出,加上马斯克本东谈主 24/7 不圮绝的预热炒作,让环球对 Grok3 的期待值被拉到了空前的进度。在一周前,马斯克在直播中商酌 DeepSeek R1 时,还信心满满地暗示「xAI 行将推出更优秀的 AI 模子」。

从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上依然高出了当今统共的主流模子,马斯克甚而声称 Grok 3 改日将用于 SpaceX 火星任务计较,并斟酌「三年内将扫尾诺贝尔奖级别冲破」。

但这些当今王人只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并建议了阿谁经典的用来刁难大模子的问题:「9.11 与 9.9 哪个大?」

缺憾的是,在不加任何定语以及标注的情况下,堪称当今最聪慧的 Grok3,仍然无法正确讲述这个问题。

Grok3 并没准确识别出这个问题的含义 | 图片来源:极客公园

在这个测试发出之后,很短的时期内马上激励了不少一又友的存眷,无稀奇偶,在国外也有好多雷同问题的测试,举例「比萨斜塔上两个球哪个先落下」这些基础物理 / 数学问题,Grok3 也被发现仍然无法应酬。因此被戏称为「天才不肯意讲述浅近问题」。

Grok3 在实质测试中的许多知识问题上出现「翻车」  | 图片来源:X

除了网友自愿测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他堪称已往玩的 Path of Exile 2 ( 放逐之路 2 ) 对应的干事与升华后果,但实质上 Grok3 给出的对应谜底绝大部分王人是弊端的。直播中的马斯克并莫得看出这个显著的问题。

Grok3 在直播中也出现给出数据大量弊端的情况   | 图片来源:X

因此这个不实不仅成为了国外网友再次嘲讽马斯克打游戏「找代练」的实锤凭证,同期也为 Grok3 在实质利用中的可靠性,再次打上了一个大大的问号。

关于这么的「天才」,岂论实质才略几何,改日被用于火星探索任务这么的极端复杂的利用场景,其可靠性王人要打上一个大大的问号。

当今,宽广在几周前获取 Grok3 测试经验、以及昨天刚刚用上几个小时的模子才略测试者,关于 Grok3 现时的发达,王人指向了一个相易的论断:

「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」

「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」  | 图片来源:X

Grok3 在发布寺东谈主方的 PPT 中,在大模子竞技场 Chatbot Arena 中扫尾「遥遥起始」,但这其实也利用了一些小小的作图手段:榜单的纵轴仅列出了 1400-1300 分段的名次,让原来 1% 的测试驱散差距,在这个 PPT 展示中王人变得极度显著。

官方发布 PPT 中的「遥遥起始」后果 | 图片来源:X

而实质的模子跑分驱散,Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 扫尾了不到 1-2% 的差距:这对应了不少用户在实质测试中「并无显著辩认」的体感后果。

实质上的 Grok3,只比自后者高了 1%-2%   | 图片来源:X

此外固然在分数上,Grok3 越过了当今公开测试的统共模子,但这少许并不被好多东谈主买账:毕竟 xAI 在 Grok2 时期就有在这个榜单中「刷分」,跟着榜单对讲述长度作风作念降权处理而大幅裁汰分数的情况,因此已往被业内东谈主士诟病「高分顽劣」。

岂论是榜单「刷分」,如故配图打算上的「小手段」,王人展示出的是 xAI 以及马斯克本东谈主关于模子才略「遥遥起始」这件事的执念。

而为了这些差距,马斯克所付出的代价堪称不菲:在发布会中,马斯克用近乎自大的口气暗示,用了 20 万张 H100(马斯克直播中暗示使用「越过 10 万」张 ) 考验 Grok3,总考验小时数达到两亿小时。这让一部分东谈主合计这是对 GPU 行业的又一个紧要利好,并认为 DeepSeek 给行业带来的转念是「愚蠢」的。

不少东谈主认为堆砌算力将会是模子考验的改日   | 图片来源:X

但实质上,有网友对比了使用 2000 张 H800 考验两个月得出的 DeepSeek V3,计较出 Grok3 其实质的考验算力铺张是 V3 的 263 倍。而 DeeSeek V3 在大模子竞技场榜单上与得分 1402 分的 Grok3 的差距,甚而还不到 100 分良友。

从这些数据出炉之后,就有不少东谈主快速理解到,在 Grok3 登顶「寰宇最强」的背后,其实是模子越大,性能越强的逻辑,依然出现了显著的边缘效应。

即使是「高分顽劣」的 Grok2,其背后也有着 X(Twitter)平台内海量的高质地第一方数据手脚撑握来使用。而到了 Grok3 的考验中,xAI 当然也会碰到 OpenAI 现时相似碰到的「天花板」——优质考验数据的不及,让模子才略的边缘效应马上曝光。

关于这些事实,最早理解到何况亦然最深入理解的东谈主,细目是 Grok3 的斥地团队与马斯克,因此马斯克也在外交媒体上不断暗示现时用户体验到的版块「还只是只是测试版」「齐备版将在改日几个月推出」。马斯克本东谈主更是化身 Grok3 产物司理,建议用户径直在商酌区反应使用时所碰到的各式问题。

他大致是地球上粉丝数目最多的产物司理   | 图片来源:X

但不到一天之内,Grok3 的发达,无疑给寄但愿依靠「鼎力飞砖」考验出才略更强的大模子的自后者敲响了警钟:根据微软公开的信息猜测,OpenAI GPT4 参数体积为 1.8 万亿参数,比拟 GPT3 依然莳植了越过 10 倍,而神话中的 GPT4.5 的参数体积甚而还会更大。

模子参数体积飞涨的同期考验资本也在飙升   | 图片来源:X

有 Grok3 在前,GPT4.5 以及更多想要继续「烧钱」,以参数体积来获取更好模子性能的选手,王人不得不计划到依然迫在眉睫的天花板,应该若何冲破。

此时此刻,OpenAI 的前首席科学家 Ilya Sutskever 在旧年 12 月曾暗示「咱们所练习的预考验将会扫尾」,又被东谈主重新牢记来,并试图从中找到大模子考验的信得过长进。

  Ilya 的不雅点,依然为行业敲响了警钟   | 图片来源:X

彼时,Ilya 准确意猜想了可用的新数据接近清寒,模子难以再继续通过获取数据来莳植性能的情况,并这种情况方法为化石燃料的铺张,暗示「正如石油是有限资源一样,互联网中由东谈主类生成的内容亦然有限的」。

在 Sutskever 斟酌中,预考验模子之后的下一代模子将会有「信得过的自主性」。同期将具备「雷同东谈主脑」的推理才略。

与如今预考验模子主要依赖的内容匹配(基于模子此前学习的内容)不同,改日的 AI 系统将能够以雷同于东谈主脑「想维」的方法,来渐渐学习并斥地起处治问题的要领论。

东谈主类对某一个学科作念到基本的闪耀,只需要基本专科册本即可扫尾,但 AI 大模子却需要学习数以百万计的数据才调扫尾最基础的初学后果,甚而当你换了个问法之后,这些基础的问题也无法正确理解,模子在信得过的智能上并莫得得到莳植:著作着手提到的那些基础但 Grok3 仍然无法正确讲述的问题,即是这种知足的直不雅体现。

但在「力大飞砖」以外,Grok3 要是的确能向行业揭示「预考验模子行将走到尽头」这个事实,那它对行业仍然称得上有着遑急的启发有趣。

无意,在 Grok3 的怒潮渐渐褪去之后,咱们也能看到kaiyun中国官方网站,更多雷同李飞飞「在特定数据集的基础上 50 好意思元微调出高性能模子」的案例出现。并在这些探索中,最终找到信得过通向 AGI 的谈路。



相关资讯