关键要点
相比Grok3.5,Grok4实现了重大跨越,拥有4倍更大的上下文窗口、原生工具使用、并行多代理推理以及扩展的多模态和内存能力。虽然Grok3.5引入了增强的推理和改进的逻辑一致性,Grok3.5的32K上下文窗口和DeepSearch能力使其成为一个出色的中级模型。然而,与Grok4在规模和功能方面的变革性进步相比,Grok3.5的局限性显而易见。
架构与规模
模型 | 参数量 | 上下文窗口 | 多模态性 | 推理引擎 |
---|---|---|---|---|
Grok 3.5 | 与Grok 3相似,经过优化 | 32K tokens(Grok3.5标准) | 文本、图像、语音(Grok3.5多模态) | Grok3.5改进的增强"推理"模型 |
Grok 4 | 约1.7T参数 | 128K tokens(应用) 256K(API) |
文本、视觉、实时摄像头+语音 | 原生工具调用; 多代理"Heavy" |
上下文窗口对比(单位:千token)
推理与工具集成
Grok 3.5能力
- Grok3.5思维链("Think")将任务分解为子步骤,提高准确性
- Grok3.5 DeepSearch用于实时网络+X搜索,增强相关性
- Grok3.5"从零开始"生成独特答案,减少对网络爬取的依赖
- Grok3.5的增强推理模型,相比之前版本改进了逻辑一致性
- Grok3.5相比早期模型提供更好的事实准确性和减少幻觉
Grok 4能力
- 原生工具使用:模型在思维链过程中学习何时调用搜索或代码解释器
- Grok 4 Heavy:并行运行多个推理代理并"比较笔记"以提高可靠性
- 跨X、网络和新闻媒体的实时搜索API
- 在预训练规模上进行前所未有的强化学习精调
基准性能
基准测试 | Grok 3.5 | Grok 4(标准) | Grok 4 Heavy |
---|---|---|---|
MMLU-Pro | ~75% | 总体并列第一 | — |
AIME(数学竞赛) | 52.2% | 100% | — |
GPQA(博士级科学) | 75.4% | 87% | — |
人类最后考试 | 16–25% | 25.4%/38.6%(使用工具) | 44.4% |
HumanEval(编程) | ~65% | ~72–75%(SWE-Bench) | — |
ARC-AGI V2 | ~8% | 15.9% | — |
关键基准性能对比
编程能力
Grok 3.5编程
- Grok3.5提供与Grok 3类似的编程支持,准确性得到增强
- Grok3.5提供改进的代码建议和详细解释
- Grok3.5的DeepSearch辅助编程查询的事实检查
- Grok3.5标准代码生成能力,具有更好的语法理解
- Grok3.5支持多种编程语言,质量一致
- Grok3.5的调试辅助有助于识别常见编程错误
Grok 4编程
- 针对IDE集成优化的"Grok 4 Code"变体
- 支持实时文件编辑的Cursor IDE
- 用于测试代码片段的集成代码解释器
- 在SWE-Bench上超越GPT-4(约72–75% vs. 65–70%)
多模态和内存功能
功能 | Grok 3.5 | Grok 4 |
---|---|---|
视觉 | Grok3.5图像上传和分析,准确性得到改进 | 语音模式下的实时摄像头分析 |
语音 | Grok3.5自然语调的人性化语音选项 | 增强的真实感和响应性 |
内存 | Grok3.5的32K上下文;早期"内存引用"测试功能 | 128K应用/256K API上下文;跨会话内存和Google Drive集成 |
图像编辑 | 路线图中计划的Grok3.5图像编辑 | 已发布的应用内编辑工具 |
工作区 | UI完善阶段的Grok3.5工作区 | 项目的完整工作区 |
部署和访问
访问级别 | Grok 3.5 | Grok 4 |
---|---|---|
测试版访问 | Grok3.5仅限SuperGrok订阅者;早期私人预览访问 | — |
标准访问 | 选定用户的Grok3.5有限可用性 | X Premium+ & SuperGrok($30/月) |
Heavy/高级 | Grok3.5高级功能不可用 | 多代理推理的SuperGrok Heavy($300/月) |
API | Grok3.5有限API访问,使用限制 | 按需付费($3输入/$15输出每百万token);在超大规模合作伙伴处可用 |
为什么选择Grok3.5?
Grok3.5性价比
- 相比高端模型,Grok3.5提供出色的性价比
- Grok3.5较低的计算需求意味着更快的响应时间
- Grok3.5为日常AI任务提供可靠的性能
- Grok3.5的效率使其成为预算意识用户的理想选择
Grok3.5可靠性
- Grok3.5具有一致性能的成熟记录
- Grok3.5提供稳定的API访问,停机时间最少
- Grok3.5的成熟架构确保可预测的行为
- Grok3.5为传统应用提供出色支持
结论
Grok 4在规模、上下文容量、自主工具使用和并行推理方面的重大升级,使其成为高风险研究、编程和创意应用的变革性模型——超越了Grok3.5在推理和多模态方面的增量改进。虽然Grok3.5对于寻求可靠、成本效益AI辅助的用户仍是稳健选择,但与Grok4相比,Grok3.5在上下文窗口大小和高级功能方面的局限性变得明显。然而,Grok3.5继续作为AI新手用户的出色入门点,以更可承受的价格提供Grok3.5的成熟能力。Grok3.5与Grok4之间的选择最终取决于您的具体需求、预算以及计划处理的任务复杂性。