币币情报道:
特斯拉和 xAI 首席执行官埃隆马斯克预计将于周三在直播中发布 Grok 4,这可能会显著推动人工智能领域的发展。
新版本将于太平洋时间晚上 8 点左右发布,有望成为该平台迄今为止最雄心勃勃的模型——超越承诺的 Grok 3.5,挑战 OpenAI 的主导地位。
ChatGPT 制造商继续对其下一个版本 GPT-5 保密,首席执行官 Sam Altman 暗示可能会在夏季发布。
这对马斯克来说无疑是个好消息,他抓住了这次机会,击败了公司最强劲的竞争对手。
Grok 4 的到来引发了一些猜测泄露的基准测试表明它在人类的最后考试中得分为 45%,而 Gemini 2.5 Pro 的比例为 21%。
据称,该模型在 AIME'25 上的准确率达到了 95%,在 GPQA 上的准确率达到了 88%,这些数字使其能够与目前最好的模型相媲美。
这非常了不起:人类的最后考试是一个旨在对人工智能模型进行高度挑战的基准,旨在直观地展示模型距离实现 AGI 和类似人类的推理还有多远。
就上下文而言,OpenAI 处于深度研究模式,使用浏览和 Python 工具,得分不超过25%.
但原始分数只反映了部分情况。Grok 4 分为两种截然不同的性格:用于日常任务的通用模型和“Grok 4 Code”,这是 xAI 专为开发人员设计的专业编码伴侣。
API 用户已经在控制台列表中发现了编码变体“grok-4-code-0629”,这表明该公司一直在与选定的合作伙伴对其进行测试。
xAI 工程师 Tim Li 表示:“Grok 4 的智能将无与伦比。”声称在宣布这一消息之前,他指出了球队精简的架构和非传统的训练方法。“世界还没有准备好接受这种模式,”他说。
这种夸耀听起来像是典型的硅谷炒作,但 Grok 确实曾让业界感到惊讶。
还记得 Grok 2 以代号“sus-column-r”悄然进入 LMSYS Chatbot Arena 吗?
它位居排行榜榜首,击败了 Claude 和 GPT-4,其 Elo 分数引起了创意作家的注意。
模型理解上下文比 ChatGPT 更好,并且生成了开发人员真正想要使用的代码,至少在 Claude 3.5 Sonnet 出现并再次提高标准之前是这样。
还有什么好东西?爱好者们希望看到更大的令牌上下文窗口。
目前只有 130,000 个令牌,与 GPT-5 预期的 100 多万个令牌相比,令牌上下文窗口可能看起来很适中,但 xAI 针对速度而非大小进行了优化。
当将 AI 集成到实时应用程序中时,实时性能至关重要,早期测试人员报告称,Grok 4 处理请求的速度明显快于其竞争对手。
此外,xAI 似乎正在实施尽可能多的优化,以使模型能够更有效地处理这些 token。当前系统提示已重新设计优化以获得更短的答案而不失去实用性。
有关特斯拉整合的传闻又增添了麻烦。泄露的UI元素这表明 Grok 可能会进入车辆系统,提供其他汽车和卡车尚未具备的独特语音激活功能。
游戏是 Grok 能够胜任的另一个领域。埃隆·马斯克宣布谷歌计划成立一个游戏实验室,鼓励人工智能驱动的游戏开发,而游戏爱好者们也期待 Grok 4 能够兑现这一承诺。信不信由你,埃隆承诺,第一款使用 Grok 开发的 3A 游戏可能会在明年发布。
当今的人工智能模型能够生成休闲游戏(贪吃蛇、小型模拟器、井字游戏),但仍然太原始,无法生成具有一流图形、复杂逻辑和精致玩法的更复杂的游戏。
OpenAI 即将推出的 GPT-5 也是有前途多模式功能可能会超越目前的任何功能,具有原生视频处理和自适应推理模式,可根据用户需求进行调整。
然而,承诺如今对开发人员没有帮助,而 Grok 4 的即时可用性使其在快速发展的人工智能市场中具有关键优势。
Grok 4 的成功或许取决于其专业化的方法。而 GPT-5专为满足 OpenAI 的需求而设计每日用户数达 1.23 亿xAI 似乎瞄准的是其相对较小的每日 700 万用户:需要可靠代码生成的开发人员、需要快速实时处理,以及不太重视过滤响应的用户。
值得注意的是,xAI 的快速发布周期——从 2023 年 11 月的 Grok 1 到 2025 年 7 月的 Grok 4——即使对于 AI 开发来说也是相当快的。
该公司使用20万块Nvidia GPU目前拥有马斯克调用“全球最强大的人工智能训练集群。”
来源:Arxiv
与 X 实时数据的集成提供了另一个优势。其他模型依赖于定期更新的静态训练数据,而 Grok 则直接从平台提取当前信息。
在重大新闻事件或热门话题期间,这种实时感知能力就成为一项显著的优势。
如果 xAI 重复其商业模式,早期访问权限可能会提供给 X Premium+ 订阅者和 SuperGrok 用户,随后 API 可用性将很快公布。
开发人员已经可以在 xAI 控制台中看到 Grok 4 和 Grok 4 Code 的占位符条目,这表明基础设施已准备好立即部署。