8月三箭齐发:DeepMind Genie 3、Claude Opus 4.1 与 OpenAI gpt-oss 系列重磅登场

8月三箭齐发:DeepMind Genie 3、Claude Opus 4.1 与 OpenAI gpt-oss 系列重磅登场

智汇资源库【zhzyk.vip】
2025-08-06 / 0 评论 / 1 阅读 / 正在检测是否收录...

8月5日三箭齐发:DeepMind Genie 3、Claude Opus 4.1 与 OpenAI gpt-oss 系列重磅登场
DeepMind、Anthropic 与 OpenAI 相继抛出里程碑级新品:DeepMind 的 Genie 3 能用一句话生成持续交互的 3D 世界;Claude Opus 4.1 刷新多智能体与编码极限;OpenAI 则首次以 Apache 2.0 协议开源 20B/120B 双规格 GPT 权重,彻底颠覆行业节奏。

openAI

Genie 3 720p 实时交互 3D 环境演示

DeepMind 的 Genie 3:世界模型的新天花板

Genie 3 继续采用自回归架构,但把“记忆”与“物理推理”提升到前所未有的 720p/24 fps 标准。研究团队通过大规模视频–文本预训练,令模型在生成过程中实时参考自身先前输出,确保重力、碰撞、遮挡等物理规律在分钟级时长内保持一致。
研究者特别强调“可提示世界事件”机制:只需一句“让球滚下坡”,系统便会在已生成的场景中插入符合动力学的新物体,并自动调整光照、纹理与材质反射,使新增元素与原环境无缝融合。

目前的局限主要集中在两点:

  • 单环境交互时长被锁定在 5 分钟左右,再长会出现漂移;
  • 多智能体同时行动时,物理一致性的置信度下降。

DeepMind 表示,下一步将把 Genie 3 用作训练“通用具身智能体”的虚拟沙箱,借助持续生成的任务场景,让 AI 在零样本条件下完成真实世界迁移。

Claude Opus 4.1:写代码、做决策、还能带队伍

Claude Opus 4.1 多智能体协作示意图

Anthropic 的迭代逻辑很直接:让模型更擅长“当老板”。Opus 4.1 在 SWE-bench Verified 上得分提升 6.7%,关键改进来自对复杂仓库结构的上下文压缩与回溯能力。
实测中,用户可一次下达“把项目迁移到 TypeScript 并补全单元测试”指令,Claude 会先拆分任务,再调用自身沙箱里的多个智能体并行处理:

  1. 静态分析 Agent 扫描依赖冲突;
  2. 重构 Agent 批量改写文件;
  3. 测试 Agent 自动生成 Jest 用例;
  4. 最后由汇总 Agent 输出可合并 PR。

API 调用延迟也优化到 1.2 s/1k token,企业级用户可在 Bedrock 与 Vertex AI 上直接切换,无需重构代码。

gpt-oss:OpenAI 首次开源,还附赠完整思维链

gpt-oss-120b 单 H100 推理性能对比

OpenAI 把“开放”做到了极致:

  • gpt-oss-20b 仅 21 B 参数,16 GB 显存即可本地推理;
  • gpt-oss-120b 在 GSM8K、MATH 基准逼近 o4-mini,单张 H100 即可跑满精度;
  • Apache 2.0 许可证允许闭源修改与商业再分发;
  • 权重、tokenizer、推理脚本、训练日志全部公开。

开发者可自由启用“思维链可视化”开关,获取模型在解题时的内部草稿;同时支持原生工具调用:浏览器、Python REPL、结构化 JSON 输出一步到位。Hugging Face 页面已放出 LoRA 微调示例,社区 6 小时内便复现了中文法律助手、SQL Agent 等多个应用。

同日竞速背后的深层信号

0

评论 (0)

取消