关键要点
相比Grok3.5,Grok4实现了重大跨越,拥有4倍更大的上下文窗?/strong>?strong>原生工具使用?strong>并行多代理推?/strong>以及扩展的多模态和内存能力。虽然Grok3.5引入了增强的推理和改进的逻辑一致性,Grok3.5?2K上下文窗口和DeepSearch能力使其成为一个出色的中级模型。然而,与Grok4在规模和功能方面的变革性进步相比,Grok3.5的局限性显而易见?/p>
架构与规?/h2>
模型
参数?/th>
上下文窗?/th>
多模态?/th>
推理引擎
Grok 3.5
与Grok 3相似,经过优?/td>
32K tokens(Grok3.5标准?/td>
文本、图像、语音(Grok3.5多模态)
Grok3.5改进的增?推理"模型
Grok 4
?.7T参数
128K tokens(应用)
256K(API?/td>
文本、视觉、实时摄像头+语音
原生工具调用?br>多代?Heavy"
上下文窗口对比(单位:千token?/h3>
推理与工具集?/h2>
Grok 3.5能力
- Grok3.5思维链("Think"?/strong>将任务分解为子步骤,提高准确?/li>
- Grok3.5 DeepSearch用于实时网络+X搜索,增强相关?/li>
- Grok3.5"从零开?生成独特答案,减少对网络爬取的依?/li>
- Grok3.5的增强推理模型,相比之前版本改进了逻辑一致?/li>
- Grok3.5相比早期模型提供更好的事实准确性和减少幻觉
Grok 4能力
- 原生工具使用?/strong>模型在思维链过程中学习何时调用搜索或代码解释器
- Grok 4 Heavy?/strong>并行运行多个推理代理?比较笔记"以提高可靠?/li>
- 跨X、网络和新闻媒体?strong>实时搜索API
- 在预训练规模上进行前所未有的强化学习精?/li>
基准性能
基准测试
Grok 3.5
Grok 4(标准)
Grok 4 Heavy
MMLU-Pro
~75%
总体并列第一
?/td>
AIME(数学竞赛)
52.2%
100%
?/td>
GPQA(博士级科学?/strong>
75.4%
87%
?/td>
人类最后考试
16?5%
25.4%/38.6%(使用工具)
44.4%
HumanEval(编程)
~65%
~72?5%(SWE-Bench?/td>
?/td>
ARC-AGI V2
~8%
15.9%
?/td>
关键基准性能对比
编程能力
Grok 3.5编程
- Grok3.5提供与Grok 3类似的编程支持,准确性得到增?/li>
- Grok3.5提供改进的代码建议和详细解释
- Grok3.5的DeepSearch辅助编程查询的事实检?/li>
- Grok3.5标准代码生成能力,具有更好的语法理解
- Grok3.5支持多种编程语言,质量一?/li>
- Grok3.5的调试辅助有助于识别常见编程错误
Grok 4编程
- 针对IDE集成优化?strong>"Grok 4 Code"变体
- 支持实时文件编辑?strong>Cursor IDE
- 用于测试代码片段的集成代码解释器
- 在SWE-Bench上超越GPT-4(约72?5% vs. 65?0%?/li>
多模态和内存功能
功能
Grok 3.5
Grok 4
视觉
Grok3.5图像上传和分析,准确性得到改?/td>
语音模式下的实时摄像头分?/td>
语音
Grok3.5自然语调的人性化语音选项
增强的真实感和响应?/td>
内存
Grok3.5?2K上下文;早期"内存引用"测试功能
128K应用/256K API上下文;跨会话内存和Google Drive集成
图像编辑
路线图中计划的Grok3.5图像编辑
已发布的应用内编辑工?/td>
工作?/strong>
UI完善阶段的Grok3.5工作?/td>
项目的完整工作区
部署和访?/h2>
访问级别
Grok 3.5
Grok 4
测试版访?/strong>
Grok3.5仅限SuperGrok订阅者;早期私人预览访问
?/td>
标准访问
选定用户的Grok3.5有限可用?/td>
X Premium+ & SuperGrok?30/月)
Heavy/高级
Grok3.5高级功能不可?/td>
多代理推理的SuperGrok Heavy?300/月)
API
Grok3.5有限API访问,使用限?/td>
按需付费?3输入/$15输出每百万token);在超大规模合作伙伴处可用
为什么选择Grok3.5?/h2>
Grok3.5性价?/h4>
- 相比高端模型,Grok3.5提供出色的性价?/li>
- Grok3.5较低的计算需求意味着更快的响应时?/li>
- Grok3.5为日常AI任务提供可靠的性能
- Grok3.5的效率使其成为预算意识用户的理想选择
Grok3.5可靠?/h4>
- Grok3.5具有一致性能的成熟记?/li>
- Grok3.5提供稳定的API访问,停机时间最?/li>
- Grok3.5的成熟架构确保可预测的行?/li>
- Grok3.5为传统应用提供出色支?/li>
结论
Grok 4在规模、上下文容量、自主工具使用和并行推理方面的重大升级,使其成为高风险研究、编程和创意应用?strong>变革?/strong>模型——超越了Grok3.5在推理和多模态方面的增量改进。虽然Grok3.5对于寻求可靠、成本效益AI辅助的用户仍是稳健选择,但与Grok4相比,Grok3.5在上下文窗口大小和高级功能方面的局限性变得明显。然而,Grok3.5继续作为AI新手用户的出色入门点,以更可承受的价格提供Grok3.5的成熟能力。Grok3.5与Grok4之间的选择最终取决于您的具体需求、预算以及计划处理的任务复杂性?/p>
| 模型 | 参数?/th> | 上下文窗?/th> | 多模态?/th> | 推理引擎 |
|---|---|---|---|---|
| Grok 3.5 | 与Grok 3相似,经过优?/td> | 32K tokens(Grok3.5标准?/td> | 文本、图像、语音(Grok3.5多模态) | Grok3.5改进的增?推理"模型 |
| Grok 4 | ?.7T参数 | 128K tokens(应用) 256K(API?/td> | 文本、视觉、实时摄像头+语音 | 原生工具调用?br>多代?Heavy" |
上下文窗口对比(单位:千token?/h3>
推理与工具集?/h2>
Grok 3.5能力
- Grok3.5思维链("Think"?/strong>将任务分解为子步骤,提高准确?/li>
- Grok3.5 DeepSearch用于实时网络+X搜索,增强相关?/li>
- Grok3.5"从零开?生成独特答案,减少对网络爬取的依?/li>
- Grok3.5的增强推理模型,相比之前版本改进了逻辑一致?/li>
- Grok3.5相比早期模型提供更好的事实准确性和减少幻觉
Grok 4能力
- 原生工具使用?/strong>模型在思维链过程中学习何时调用搜索或代码解释器
- Grok 4 Heavy?/strong>并行运行多个推理代理?比较笔记"以提高可靠?/li>
- 跨X、网络和新闻媒体?strong>实时搜索API
- 在预训练规模上进行前所未有的强化学习精?/li>
基准性能
基准测试
Grok 3.5
Grok 4(标准)
Grok 4 Heavy
MMLU-Pro
~75%
总体并列第一
?/td>
AIME(数学竞赛)
52.2%
100%
?/td>
GPQA(博士级科学?/strong>
75.4%
87%
?/td>
人类最后考试
16?5%
25.4%/38.6%(使用工具)
44.4%
HumanEval(编程)
~65%
~72?5%(SWE-Bench?/td>
?/td>
ARC-AGI V2
~8%
15.9%
?/td>
关键基准性能对比
编程能力
Grok 3.5编程
- Grok3.5提供与Grok 3类似的编程支持,准确性得到增?/li>
- Grok3.5提供改进的代码建议和详细解释
- Grok3.5的DeepSearch辅助编程查询的事实检?/li>
- Grok3.5标准代码生成能力,具有更好的语法理解
- Grok3.5支持多种编程语言,质量一?/li>
- Grok3.5的调试辅助有助于识别常见编程错误
Grok 4编程
- 针对IDE集成优化?strong>"Grok 4 Code"变体
- 支持实时文件编辑?strong>Cursor IDE
- 用于测试代码片段的集成代码解释器
- 在SWE-Bench上超越GPT-4(约72?5% vs. 65?0%?/li>
多模态和内存功能
功能
Grok 3.5
Grok 4
视觉
Grok3.5图像上传和分析,准确性得到改?/td>
语音模式下的实时摄像头分?/td>
语音
Grok3.5自然语调的人性化语音选项
增强的真实感和响应?/td>
内存
Grok3.5?2K上下文;早期"内存引用"测试功能
128K应用/256K API上下文;跨会话内存和Google Drive集成
图像编辑
路线图中计划的Grok3.5图像编辑
已发布的应用内编辑工?/td>
工作?/strong>
UI完善阶段的Grok3.5工作?/td>
项目的完整工作区
部署和访?/h2>
访问级别
Grok 3.5
Grok 4
测试版访?/strong>
Grok3.5仅限SuperGrok订阅者;早期私人预览访问
?/td>
标准访问
选定用户的Grok3.5有限可用?/td>
X Premium+ & SuperGrok?30/月)
Heavy/高级
Grok3.5高级功能不可?/td>
多代理推理的SuperGrok Heavy?300/月)
API
Grok3.5有限API访问,使用限?/td>
按需付费?3输入/$15输出每百万token);在超大规模合作伙伴处可用
为什么选择Grok3.5?/h2>
Grok3.5性价?/h4>
- 相比高端模型,Grok3.5提供出色的性价?/li>
- Grok3.5较低的计算需求意味着更快的响应时?/li>
- Grok3.5为日常AI任务提供可靠的性能
- Grok3.5的效率使其成为预算意识用户的理想选择
Grok3.5可靠?/h4>
- Grok3.5具有一致性能的成熟记?/li>
- Grok3.5提供稳定的API访问,停机时间最?/li>
- Grok3.5的成熟架构确保可预测的行?/li>
- Grok3.5为传统应用提供出色支?/li>
结论
Grok 4在规模、上下文容量、自主工具使用和并行推理方面的重大升级,使其成为高风险研究、编程和创意应用?strong>变革?/strong>模型——超越了Grok3.5在推理和多模态方面的增量改进。虽然Grok3.5对于寻求可靠、成本效益AI辅助的用户仍是稳健选择,但与Grok4相比,Grok3.5在上下文窗口大小和高级功能方面的局限性变得明显。然而,Grok3.5继续作为AI新手用户的出色入门点,以更可承受的价格提供Grok3.5的成熟能力。Grok3.5与Grok4之间的选择最终取决于您的具体需求、预算以及计划处理的任务复杂性?/p>
Grok 3.5能力
- Grok3.5思维链("Think"?/strong>将任务分解为子步骤,提高准确?/li>
- Grok3.5 DeepSearch用于实时网络+X搜索,增强相关?/li>
- Grok3.5"从零开?生成独特答案,减少对网络爬取的依?/li>
- Grok3.5的增强推理模型,相比之前版本改进了逻辑一致?/li>
- Grok3.5相比早期模型提供更好的事实准确性和减少幻觉
Grok 4能力
- 原生工具使用?/strong>模型在思维链过程中学习何时调用搜索或代码解释器
- Grok 4 Heavy?/strong>并行运行多个推理代理?比较笔记"以提高可靠?/li>
- 跨X、网络和新闻媒体?strong>实时搜索API
- 在预训练规模上进行前所未有的强化学习精?/li>
基准性能
| 基准测试 | Grok 3.5 | Grok 4(标准) | Grok 4 Heavy |
|---|---|---|---|
| MMLU-Pro | ~75% | 总体并列第一 | ?/td> |
| AIME(数学竞赛) | 52.2% | 100% | ?/td> |
| GPQA(博士级科学?/strong> | 75.4% | 87% | ?/td> |
| 人类最后考试 | 16?5% | 25.4%/38.6%(使用工具) | 44.4% |
| HumanEval(编程) | ~65% | ~72?5%(SWE-Bench?/td> | ?/td> |
| ARC-AGI V2 | ~8% | 15.9% | ?/td> |
关键基准性能对比
编程能力
Grok 3.5编程
- Grok3.5提供与Grok 3类似的编程支持,准确性得到增?/li>
- Grok3.5提供改进的代码建议和详细解释
- Grok3.5的DeepSearch辅助编程查询的事实检?/li>
- Grok3.5标准代码生成能力,具有更好的语法理解
- Grok3.5支持多种编程语言,质量一?/li>
- Grok3.5的调试辅助有助于识别常见编程错误
Grok 4编程
- 针对IDE集成优化?strong>"Grok 4 Code"变体
- 支持实时文件编辑?strong>Cursor IDE
- 用于测试代码片段的集成代码解释器
- 在SWE-Bench上超越GPT-4(约72?5% vs. 65?0%?/li>
多模态和内存功能
| 功能 | Grok 3.5 | Grok 4 |
|---|---|---|
| 视觉 | Grok3.5图像上传和分析,准确性得到改?/td> | 语音模式下的实时摄像头分?/td> |
| 语音 | Grok3.5自然语调的人性化语音选项 | 增强的真实感和响应?/td> |
| 内存 | Grok3.5?2K上下文;早期"内存引用"测试功能 | 128K应用/256K API上下文;跨会话内存和Google Drive集成 |
| 图像编辑 | 路线图中计划的Grok3.5图像编辑 | 已发布的应用内编辑工?/td> |
| 工作?/strong> | UI完善阶段的Grok3.5工作?/td> | 项目的完整工作区 |
部署和访?/h2>
访问级别
Grok 3.5
Grok 4
测试版访?/strong>
Grok3.5仅限SuperGrok订阅者;早期私人预览访问
?/td>
标准访问
选定用户的Grok3.5有限可用?/td>
X Premium+ & SuperGrok?30/月)
Heavy/高级
Grok3.5高级功能不可?/td>
多代理推理的SuperGrok Heavy?300/月)
API
Grok3.5有限API访问,使用限?/td>
按需付费?3输入/$15输出每百万token);在超大规模合作伙伴处可用
为什么选择Grok3.5?/h2>
Grok3.5性价?/h4>
- 相比高端模型,Grok3.5提供出色的性价?/li>
- Grok3.5较低的计算需求意味着更快的响应时?/li>
- Grok3.5为日常AI任务提供可靠的性能
- Grok3.5的效率使其成为预算意识用户的理想选择
Grok3.5可靠?/h4>
- Grok3.5具有一致性能的成熟记?/li>
- Grok3.5提供稳定的API访问,停机时间最?/li>
- Grok3.5的成熟架构确保可预测的行?/li>
- Grok3.5为传统应用提供出色支?/li>
结论
Grok 4在规模、上下文容量、自主工具使用和并行推理方面的重大升级,使其成为高风险研究、编程和创意应用?strong>变革?/strong>模型——超越了Grok3.5在推理和多模态方面的增量改进。虽然Grok3.5对于寻求可靠、成本效益AI辅助的用户仍是稳健选择,但与Grok4相比,Grok3.5在上下文窗口大小和高级功能方面的局限性变得明显。然而,Grok3.5继续作为AI新手用户的出色入门点,以更可承受的价格提供Grok3.5的成熟能力。Grok3.5与Grok4之间的选择最终取决于您的具体需求、预算以及计划处理的任务复杂性?/p>
| 访问级别 | Grok 3.5 | Grok 4 |
|---|---|---|
| 测试版访?/strong> | Grok3.5仅限SuperGrok订阅者;早期私人预览访问 | ?/td> |
| 标准访问 | 选定用户的Grok3.5有限可用?/td> | X Premium+ & SuperGrok?30/月) |
| Heavy/高级 | Grok3.5高级功能不可?/td> | 多代理推理的SuperGrok Heavy?300/月) |
| API | Grok3.5有限API访问,使用限?/td> | 按需付费?3输入/$15输出每百万token);在超大规模合作伙伴处可用 |
Grok3.5性价?/h4>
- 相比高端模型,Grok3.5提供出色的性价?/li>
- Grok3.5较低的计算需求意味着更快的响应时?/li>
- Grok3.5为日常AI任务提供可靠的性能
- Grok3.5的效率使其成为预算意识用户的理想选择
Grok3.5可靠?/h4>
- Grok3.5具有一致性能的成熟记?/li>
- Grok3.5提供稳定的API访问,停机时间最?/li>
- Grok3.5的成熟架构确保可预测的行?/li>
- Grok3.5为传统应用提供出色支?/li>
结论
Grok 4在规模、上下文容量、自主工具使用和并行推理方面的重大升级,使其成为高风险研究、编程和创意应用?strong>变革?/strong>模型——超越了Grok3.5在推理和多模态方面的增量改进。虽然Grok3.5对于寻求可靠、成本效益AI辅助的用户仍是稳健选择,但与Grok4相比,Grok3.5在上下文窗口大小和高级功能方面的局限性变得明显。然而,Grok3.5继续作为AI新手用户的出色入门点,以更可承受的价格提供Grok3.5的成熟能力。Grok3.5与Grok4之间的选择最终取决于您的具体需求、预算以及计划处理的任务复杂性?/p>