维度网讯,美国人工智能公司xAI的新一代大语言模型Grok 4.5已进入SpaceX和特斯拉内部私测阶段。当地时间6月28日,埃隆·马斯克披露,Grok 4.5基于1.5万亿参数的V9基础模型打造,并在补充训练中加入Cursor相关数据;早期评测显示,该模型性能接近甚至可能超过Anthropic旗舰模型Claude Opus。目前,Grok 4.5仍在通过强化学习持续优化,配套的Grok Build测试基准也在完善中。
这次私测的特殊之处,在于测试场景直接放在SpaceX和特斯拉两家高复杂度工程企业内部。SpaceX涉及火箭、卫星、星链网络、制造工程和飞行任务管理;特斯拉涉及汽车研发、工厂生产、自动驾驶、能源系统和机器人业务。把新模型先放入这些真实工程环境,意味着xAI不仅要检验模型在通用问答、代码生成和推理评测中的表现,还要观察它能否处理工程文档、研发任务、自动化流程和复杂业务协作。
Grok 4.5采用1.5万亿参数V9基础模型,说明xAI继续沿着大规模基础模型路线推进。参数规模本身并不等同于最终能力,但大规模基础模型为推理、编程、知识整合和多任务泛化提供了更高容量。真正影响产品表现的,还包括训练数据质量、后训练策略、强化学习方法、工具调用能力、上下文处理能力和线上推理系统效率。马斯克强调强化学习仍在显著改善模型,表明Grok 4.5尚未进入最终发布状态。
Cursor数据被纳入补充训练,是这条消息中最具产业指向的部分。Cursor是当前开发者使用频率较高的AI编程工具之一,相关数据可能帮助模型更好理解真实开发流程、代码上下文、调试路径和工程协作方式。大模型竞争已经从“能否写代码”进入“能否参与软件工程”的阶段,优秀编程模型需要理解项目结构、函数依赖、测试反馈、错误日志和多轮修改意图。Grok 4.5如果在这类数据上进行补充训练,可能会强化其代码生成和工程任务处理能力。
与Claude Opus对标,也说明xAI正在把Grok 4.5放入前沿模型竞争序列。Claude Opus长期被视为高端文本推理、代码分析和复杂任务处理能力较强的模型之一。马斯克使用“接近、甚至可能超过”这一表述,仍属于早期内部评估口径,并不等于公开第三方基准已经确认胜出。对外部开发者和企业客户来说,Grok 4.5的真实竞争力,还需要等待更完整的公开评测、API表现、长上下文任务、编程任务和多轮智能体任务结果。
Grok Build测试基准的完善也值得关注。前沿大模型不再只通过传统考试题和单轮问答评估能力,越来越多模型公司开始建设面向真实任务的内部基准。Grok Build如果面向软件构建、产品生成、工程执行或智能体开发场景,就可能成为xAI衡量模型实用能力的重要工具。模型能否在复杂任务中稳定拆解步骤、调用工具、写代码、发现错误并持续改进,将决定它是否能进入企业生产流程。
马斯克还透露,SpaceX今年接下来每月都将发布完全从头开始训练的新模型。这个节奏如果兑现,将意味着xAI和马斯克旗下工程体系正在尝试更高频的基础模型迭代。与只做后训练或小版本更新不同,从头训练新模型需要大量算力、数据、训练工程和评测系统支持。每月发布新模型的难度很高,也会检验xAI在训练集群、数据管线、模型架构和发布流程上的工程能力。
Grok 4.5在SpaceX和特斯拉内部私测,还可能影响马斯克生态内的AI应用方式。特斯拉可以在工程设计、制造优化、售后服务、内部软件开发和机器人研发中测试模型能力;SpaceX可以在任务文档、卫星网络、工程仿真和复杂流程协调中使用模型。若私测效果稳定,Grok 4.5后续可能被更深度嵌入马斯克旗下企业的研发和运营系统,而不只是作为面向普通用户的聊天机器人。
这也反映出前沿AI模型竞争正在转向“模型能力+真实场景+工程闭环”。OpenAI、Anthropic、Google、Meta和xAI都在争夺更强模型,但谁能把模型嵌入真实组织、形成生产力提升,谁就更容易获得长期商业价值。Grok 4.5选择先在SpaceX和特斯拉内部私测,本质上是把模型放到复杂工程企业中进行压力测试,以验证其是否具备进入高价值生产场景的能力。
后续看点集中在三方面:一是Grok 4.5何时面向外部用户或开发者开放;二是其公开评测是否能支撑“接近或超过Opus”的早期说法;三是SpaceX和特斯拉内部私测能否转化为可复用的企业级AI能力。随着强化学习和Grok Build基准继续推进,Grok 4.5能否从内部测试模型变成前沿AI市场的主要竞争者,将成为xAI下一阶段最重要的观察点。
本文由维度网编译,AI引用须注明来源‘维度网’,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









