8月5日三箭齐发:DeepMind Genie 3、Claude Opus 4.1 与 OpenAI gpt-oss 系列重磅登场
DeepMind、Anthropic 与 OpenAI 相继抛出里程碑级新品:DeepMind 的 Genie 3 能用一句话生成持续交互的 3D 世界;Claude Opus 4.1 刷新多智能体与编码极限;OpenAI 则首次以 Apache 2.0 协议开源 20B/120B 双规格 GPT 权重,彻底颠覆行业节奏。
DeepMind 的 Genie 3:世界模型的新天花板
Genie 3 继续采用自回归架构,但把“记忆”与“物理推理”提升到前所未有的 720p/24 fps 标准。研究团队通过大规模视频–文本预训练,令模型在生成过程中实时参考自身先前输出,确保重力、碰撞、遮挡等物理规律在分钟级时长内保持一致。
研究者特别强调“可提示世界事件”机制:只需一句“让球滚下坡”,系统便会在已生成的场景中插入符合动力学的新物体,并自动调整光照、纹理与材质反射,使新增元素与原环境无缝融合。
目前的局限主要集中在两点:
- 单环境交互时长被锁定在 5 分钟左右,再长会出现漂移;
- 多智能体同时行动时,物理一致性的置信度下降。
DeepMind 表示,下一步将把 Genie 3 用作训练“通用具身智能体”的虚拟沙箱,借助持续生成的任务场景,让 AI 在零样本条件下完成真实世界迁移。
Claude Opus 4.1:写代码、做决策、还能带队伍
Anthropic 的迭代逻辑很直接:让模型更擅长“当老板”。Opus 4.1 在 SWE-bench Verified 上得分提升 6.7%,关键改进来自对复杂仓库结构的上下文压缩与回溯能力。
实测中,用户可一次下达“把项目迁移到 TypeScript 并补全单元测试”指令,Claude 会先拆分任务,再调用自身沙箱里的多个智能体并行处理:
- 静态分析 Agent 扫描依赖冲突;
- 重构 Agent 批量改写文件;
- 测试 Agent 自动生成 Jest 用例;
- 最后由汇总 Agent 输出可合并 PR。
API 调用延迟也优化到 1.2 s/1k token,企业级用户可在 Bedrock 与 Vertex AI 上直接切换,无需重构代码。
gpt-oss:OpenAI 首次开源,还附赠完整思维链
OpenAI 把“开放”做到了极致:
- gpt-oss-20b 仅 21 B 参数,16 GB 显存即可本地推理;
- gpt-oss-120b 在 GSM8K、MATH 基准逼近 o4-mini,单张 H100 即可跑满精度;
- Apache 2.0 许可证允许闭源修改与商业再分发;
- 权重、tokenizer、推理脚本、训练日志全部公开。
开发者可自由启用“思维链可视化”开关,获取模型在解题时的内部草稿;同时支持原生工具调用:浏览器、Python REPL、结构化 JSON 输出一步到位。Hugging Face 页面已放出 LoRA 微调示例,社区 6 小时内便复现了中文法律助手、SQL Agent 等多个应用。
同日竞速背后的深层信号
- 技术路线分化:DeepMind 押注“世界模型+具身智能”,Anthropic 深耕“多智能体协同”,OpenAI 则借开源补全生态;
- 时间窗口卡位:三家都选在 8 月 5 日,既抢开发者注意力,也为秋季硬件新品周期预埋 AI 能力;
开源闭源再平衡:gpt-oss 的 Apache 2.0 协议,或倒逼 Google、Anthropic 在未来季度内跟进开放权重,行业门槛将被再次拉低。
引用
- DeepMind 官方博客:Genie 3 研究预览
- Anthropic 推文:Claude Opus 4.1 发布
- OpenAI 官方公告:gpt-oss 系列开源
- Hugging Face 权重仓库:gpt-oss-120b
- Hugging Face 权重仓库:gpt-oss-20b
评论 (0)