测试“世界上最聪明的” grok3

Aipu Waton Group(1)

介绍

您认为Grok3将是预训练模型的“端点”?

埃隆·马斯克(Elon Musk)和XAI团队在直播期间正式推出了Grok 3 Grok3的最新版本。在此事件发生之前,大量相关信息,再加上马斯克的24/7促销炒作,将对GROK3的全球期望提高到了前所未有的水平。就在一周前,马斯克在对DeepSeek R1发表评论时自信地说:“ Xai即将推出更好的AI模型。”据报道,从现场显示的数据中,GROK3超过了数学,科学和编程基准中的所有当前主流模型,Musk甚至声称GROK3将用于与SpaceX的MARS MARS任务相关的计算任务,并预测了“三年内诺贝尔奖的突破性”。但是,这些目前只是马斯克的断言。发布后,我测试了GROK3的最新Beta版本,并为大型模型提出了经典的技巧问题:“哪个更大,9.11或9.9?”遗憾的是,没有任何预选赛或标记,所谓的最聪明的Grok3仍然无法正确回答这个问题。 GROK3无法准确识别问题的含义。

 

这项测试很快引起了许多朋友的关注,巧合的是,海外的各种类似测试表明,Grok3在基本的物理/数学问题上挣扎,例如“哪个球首先落入比萨的倾斜塔?”因此,它被幽默地标记为“不愿回答简单问题的天才”。

640

GROK3很好,但并不比R1或O1-Pro好。

GROK3在实践中的许多常识测试中都经历了“失败”。在XAI发布会期间,Musk使用GROK3证明了Exile 2的游戏路径的角色类别和效果,他声称经常玩,但是GROK3提供的大多数答案都是不正确的。直播期间的麝香没有注意到这个明显的问题。

 

这个错误不仅为海外网民提供了进一步的证据,以嘲笑麝香在游戏中“找到替代品”,而且对Grok3在实际应用中的可靠性方面引起了重大关注。对于这样的“天才”,无论其实际功能如何,它在极其复杂的应用程序场景(例如火星勘探任务)中的可靠性仍然令人怀疑。

 

目前,许多在几周前可以访问Grok3的测试人员,以及昨天刚刚测试模型功能几个小时的人,所有这些都表明了一个共同的结论:“ Grok3很好,但并不比R1或O1-Pro好。”

640(1)

关于“破坏Nvidia”的批判性观点

在发行版期间的正式介绍的PPT中,Grok3在聊天机器人体育馆中被证明是“遥远的”,但是这种巧妙的图形技术:排行榜上仅列出的垂直轴仅在1400-1300分数范围内列出的结果,这使得原始的1%的测试结果差异在本演讲中显着。

640

在实际模型评分结果中,GROK3仅比DeepSeek R1和GPT-4.0领先1-2%,这与许多用户在实际测试中的经验相对应,发现“没有明显的差异”。 GROK3仅超过其继任者1%-2%。

640

尽管GROK3的得分高于所有当前公开测试的模型,但许多人并没有认真对待这一点:毕竟,Xai以前因Grok2时代的“得分操纵”而受到批评。由于排行榜惩罚答案的长度风格,得分大大下降,导致行业内部人士经常批评“高得分但能力低得多”的现象。

 

无论是通过排行榜的“操纵”还是插图中的设计技巧,它们都揭示了Xai和马斯克对模型功能中“领导”的概念的痴迷。马斯克为这些利润率付出了高昂的代价:在发布期间,他吹嘘使用200,000 H100 GPU(在直播期间声称“超过100,000”),并达到了总培训时间为2亿小时。这使一些人认为这代表了GPU行业的另一个重要福音,并认为DeepSeek对该行业的影响是“愚蠢的”。值得注意的是,有些人认为纯粹的计算能力将是模型培训的未来。

 

但是,一些网民比较了两个月内的2000 H800 GPU的消费,以生产DeepSeek V3,计算Grok3的实际培训功耗是V3的263倍。 DeepSeek V3的差距为1402分,而GROK3的差距不到100分。此数据发布后,许多人很快意识到,Grok3标题作为“世界上最强”的背后是一个明显的边缘效用效应 - 较大模型的逻辑产生了更强的性能,已经开始显示回报的减少。

640(2)

即使具有“高分但低能力”,GROK2也从X(Twitter)平台上拥有大量的高质量第一方数据来支持使用。但是,在对Grok3的培训中,Xai自然遇到了Openai当前面临的“天花板” - 缺乏高级培训数据迅速暴露了该模型能力的边际效用。

 

Grok3和Musk的开发人员可能是第一个深入理解和确定这些事实的人,这就是为什么Musk在社交媒体上不断提到用户现在所经历的版本“仍然只是Beta的版本”,并且“完整版本将在未来几个月内发布”。马斯克(Musk)担任了Grok3的产品经理的角色,建议用户就评论部分遇到的各种问题提供反馈。

 

然而,在一天之内,Grok3的性能无疑引起了那些希望依靠“庞大的计算肌肉”来训练更强大模型的人的警报:根据公开可用的Microsoft信息,OpenAI的GPT-4具有1.8万亿个参数的参数,超过了GPT-3的十倍。谣言表明,GPT-4.5的参数大小可能更大。

 

随着模型参数大小飙升,培训成本也飙升。借助GROK3的存在,像GPT-4.5这样的竞争者以及其他希望继续“燃烧资金”以通过参数大小来实现更好的模型性能的其他竞争者必须考虑现在清楚地看到的天花板,并考虑如何克服它。目前,OpenAI的前首席科学家Ilya Sutskever曾在去年12月曾说过:“我们熟悉的预培训将结束”,该研究在讨论中浮出水面,促使人们努力寻找训练大型模型的真正途径。

640(3)

伊利亚的观点在行业中发出了警报。他准确地预见了即将访问的新数据的耗尽,导致无法通过数据获取来继续提高性能,将其比作耗尽化石燃料的耗尽。他指出:“像石油一样,互联网上的人类生成的内容是有限的资源。”在Sutskever的预测中,下一代模型,即培训后,将具有“真正的自主权”和推理能力“类似于人类大脑”。

 

与当今主要依赖内容匹配的预培训的模型(基于以前学到的模型内容)不同,未来的AI系统将能够学习和建立方法,以类似于人类大脑的“思维”方式解决问题。人类可以在仅具有基本专业文献的主题中实现基本水平,而AI大型模型则需要数百万个数据点才能达到最基本的入门级功效。即使措辞略微更改,这些基本问题也可能无法正确理解,这说明该模型在智力上没有真正改善:本文开头提到的基本但无法解决的问题代表了这种现象的明确例子。

微信图片_20240614024031.jpg1

结论

但是,除了蛮力之外,如果Grok3确实成功地向行业揭示了“预培训模型正在接近其结束”,那将对该领域产生重大影响。

也许在围绕Grok3的疯狂逐渐消退之后,我们会目睹更多的案例,例如Fei-Fei Li的示例“在特定数据集中调整高性能模型仅需50美元”,最终发现了AGI的真正途径。

查找电缆解决方案

控制电缆

用于BMS,公共汽车,工业,仪表电缆。

结构化电缆系统

网络和数据,光纤电缆,贴片线,模块,面板

2024年展览与活动评论

2024年4月16日至18日,迪拜中东 - 能源

2024年4月16日至18日,莫斯科Securika

2024年5月9日,新产品和技术在上海推出活动

2024年10月22日25日,北京安全中国安全

1924年11月19-20日,连接世界KSA


发布时间:2月19日至2025年