Grok 3在LLM排行榜上名列前茅，马斯克为其注入独特观点

2025-03-01 16:20

关键词:

埃隆·马斯克的人工智能公司xAI近日发布了Grok 3，这是一个全新的AI模型系列，旨在为社交平台X的聊天机器人功能提供支持。Grok 3在xAI的孟菲斯数据中心经过数月训练，据称使用了20万个GPU，其计算能力是前代Grok 2的10倍。此次更新为平台现有的文本和图像生成工具增添了图像分析和模拟推理功能。

Grok 3的发布引发了广泛关注，尤其是在马斯克暗示该模型可能代表其世界观之后。他在社交媒体上发布了一条“Grok 3 is so based”的帖子，并附上了一张截图，显示Grok 3对新闻媒体The Information的评价：“与大多数传统媒体一样，The Information是垃圾。它是守旧派的一部分——经过过滤、有偏见，并且经常为其资助者或编辑的利益服务，而不是给你不加掩饰的真相。”然而，独立测试表明，这种输出并非Grok 3的典型表现，尽管它确实在某些情况下会表达观点。

尽管存在潜在的偏见输出，Grok 3在性能上表现优异。该模型目前在LMSYS Chatbot Arena排行榜上名列前茅，该排行榜通过盲测人气竞赛对AI语言模型进行排名。AI研究员Andrej Karpathy在测试后表示：“Grok 3 + Thinking感觉接近OpenAI的最强模型(o1-pro，200美元/月)，略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到团队在约一年前从零开始，这一成就令人难以置信。”

Grok 3系列包括多个模型，其中“迷你”版本以速度换取准确性。xAI声称，Grok 3在某些数学和科学基准测试(如AIME和GPQA)上优于OpenAI的GPT-4o。此外，Grok 3 Reasoning和Grok 3 mini Reasoning模型结合了模拟推理功能，用户可通过“思考”命令或“Big Brain”模式访问这些功能。Grok应用程序还新增了“DeepSearch”工具，能够搜索互联网和X平台以生成信息摘要，类似于Google和OpenAI的深度研究功能。

xAI计划在未来一周内为Grok应用程序添加语音合成功能，并在几周内推出具有DeepSearch功能的企业API。此外，公司表示将在Grok 3稳定后开源Grok 2模型，预计这一过程需要数月时间。

美国