适用于 BMS、BUS、工业、仪器仪表电缆。

埃隆·马斯克和 xAI 团队在直播中正式发布了 Grok 的最新版本 Grok3。此前,大量相关信息的曝光,加上马斯克全天候的宣传,让全球对 Grok3 的期待达到了前所未有的高度。就在一周前,马斯克在直播中对 DeepSeek R1 评测时自信满满地宣称:“xAI 即将推出一个更强大的 AI 模型。” 据报道,从直播数据来看,Grok3 在数学、科学和编程等基准测试中已经超越了目前所有主流模型。马斯克甚至声称 Grok3 将用于 SpaceX 火星任务相关的计算任务,并预测“三年内将取得诺贝尔奖级别的突破”。然而,这些目前都只是马斯克的断言。发布会结束后,我测试了 Grok3 的最新测试版,并提出了一个经典的大型模型难题:“9.11 和 9.9,哪个更大?”遗憾的是,没有任何限定词或标记,号称最聪明的 Grok3 仍然无法正确回答这个问题。Grok3 未能准确识别出问题的含义。
这次测试很快引起了很多朋友的关注,无独有偶,国外各种类似的测试都显示,Grok3 在“比萨斜塔上哪个球先掉下来?”等基础物理/数学题目上表现不佳,因此被人戏称为“不愿意回答简单问题的天才”。

Grok3 不错,但并不比 R1 或 o1-Pro 好。
Grok3 在实践中在许多常识测试中“失败”。在 xAI 发布会上,马斯克演示了如何使用 Grok3 分析他声称经常玩的游戏《流放之路 2》中的角色职业和效果,但 Grok3 提供的大部分答案都是错误的。马斯克在直播中并没有注意到这个明显的问题。
此次失误不仅为海外网友嘲讽马斯克在游戏中“找替身”提供了进一步的证据,也引发了人们对Grok3在实际应用中可靠性的担忧。对于这样一个“天才”,无论其实际能力如何,其在火星探测任务等极其复杂的应用场景中的可靠性仍然值得怀疑。
目前,许多几周前获得 Grok3 访问权限的测试人员,以及昨天刚刚测试了模型功能几个小时的测试人员,都得出一个共同的结论:“Grok3 不错,但并不比 R1 或 o1-Pro 更好。”

对“颠覆英伟达”的批判性观点
在发布会官方呈现的PPT中,Grok3被展示在Chatbot Arena中“遥遥领先”,但这巧妙地运用了图表技巧:排行榜的纵轴只列出了1400-1300分范围内的成绩,使得原本1%的测试成绩差异在这次演示中显得格外显著。

在实际模型评分结果中,Grok3 仅比 DeepSeek R1 和 GPT-4.0 领先 1-2%,这与很多用户在实际测试中“没有明显区别”的感受相符。Grok3 仅比其后继者高出 1%-2%。

尽管 Grok3 的得分高于目前所有公开测试的模型,但很多人对此并不以为然:毕竟,xAI 在 Grok2 时代就曾因“分数操纵”而饱受诟病。由于排行榜采用惩罚答案长度的模式,导致得分大幅下降,导致业内人士经常批评“得分高但能力低”的现象。
无论是通过排行榜“操纵”还是插图中的设计技巧,它们都揭示了 xAI 以及马斯克对模型能力“领先”理念的执着。马斯克为这些优势付出了高昂的代价:在发布会上,他夸耀自己使用了 20 万块 H100 GPU(直播中声称“超过 10 万块”),总训练时间达到 2 亿小时。这导致一些人认为这代表着 GPU 行业的又一次重大利好,并认为 DeepSeek 对该行业的影响“愚蠢至极”。值得注意的是,一些人认为,纯粹的计算能力才是模型训练的未来。
然而,有网友对比了2000块H800 GPU在两个月内完成DeepSeek V3的功耗,计算出Grok3的实际训练功耗是V3的263倍。DeepSeek V3得分1402分,与Grok3的差距不到100分。这些数据公布后,很多人很快意识到,Grok3“世界最强”的背后隐藏着明显的边际效用效应——更大模型带来更强性能的逻辑已经开始呈现收益递减的趋势。

即使“得分高但能力低”,Grok2 也拥有来自 X(Twitter)平台的大量高质量第一方数据来支持使用。然而,在 Grok3 的训练中,xAI 自然而然地遇到了 OpenAI 目前面临的“天花板”——优质训练数据的缺乏迅速暴露了模型能力的边际效用。
Grok3 的开发者和马斯克很可能是第一批深刻理解并认识到这些事实的人,因此马斯克在社交媒体上不断提到用户现在体验的版本“仍然只是测试版”,“完整版将在未来几个月内发布”。马斯克已经担任了 Grok3 的产品经理,建议用户在评论区反馈遇到的各种问题。他可能是地球上粉丝最多的产品经理。
然而,Grok3 一天之内的表现无疑给那些希望依靠“强大计算能力”训练更强大大型模型的人敲响了警钟:根据微软公开的信息,OpenAI 的 GPT-4 参数规模高达 1.8 万亿,是 GPT-3 的十倍以上。有传言称,GPT-4.5 的参数规模可能还会更大。
随着模型参数规模的飙升,训练成本也随之飙升。随着 Grok3 的出现,像 GPT-4.5 这样的竞争者,以及其他希望继续“烧钱”通过参数规模来提升模型性能的竞争对手,必须正视如今显而易见的模型上限,并思考如何突破它。目前,OpenAI 前首席科学家 Ilya Sutskever 曾在去年 12 月表示:“我们熟悉的预训练将会终结”,这句话再次出现在讨论中,促使人们努力寻找训练大型模型的真正途径。

Ilya的观点为业界敲响了警钟。他精准地预见到了可获取的新数据即将枯竭,导致无法通过数据获取持续提升性能,就像化石燃料的枯竭一样。他指出,“就像石油一样,互联网上人类生成的内容是一种有限的资源。” Sutskever 预测,经过预训练的下一代模型将拥有“真正的自主性”和“类似于人脑”的推理能力。
与当今主要依赖内容匹配(基于先前学习的模型内容)的预训练模型不同,未来的人工智能系统将能够学习并建立解决问题的方法,其方式类似于人脑的“思考”。人类仅凭基本的专业文献就能达到某一学科的基本熟练程度,而人工智能大型模型则需要数百万个数据点才能达到最基本的入门级效能。即使措辞略有改变,这些基本问题也可能无法被正确理解,这表明模型的智能并未真正提升:文章开头提到的那些基本但无法解决的问题就是这种现象的一个典型例子。

结论
然而,除了蛮力之外,如果 Grok3 确实成功地向业界揭示“预训练模型即将走到尽头”,那么这将对该领域产生重大影响。
或许,在 Grok3 的热潮逐渐平息之后,我们会看到更多像李飞飞那样“只需 50 美元就能在特定数据集上调优高性能模型”的案例,最终找到通往 AGI 的真正道路。
控制电缆
结构化布线系统
网络和数据、光纤电缆、跳线、模块、面板
2024年4月16-18日迪拜中东能源展
2024年4月16日至18日莫斯科Securika
2024年5月9日上海新产品新技术发布会
2024年10月22日至25日,北京中国国际安防展览会
2024年11月19-20日 沙特阿拉伯互联世界
发布时间:2025年2月19日