AI行业周报：Gemini 2.5 Pro 发布，o4-mini 推理降本

2026年5月10日作者 360xk

本文覆盖近一周 AI 领域最新动态，涵盖大模型、视频生成、图像生成和开源生态四大板块。

一、Gemini 2.5 Pro 发布：多模态+搜索增强

Google 发布 Gemini 2.5 Pro，核心升级在三个方向。

第一，长上下文窗口。支持百万 token 级别的推理链处理，可一次性读取数百页技术文档并生成结构化摘要。

第二，原生日搜索能力。模型在推理过程中可自主调用搜索接口，结合实时信息生成回答，显著降低训练数据过时导致的事实错误。

第三，多模态原生理解。文本、图片、音频和视频统一编码，跨模态生成质量进一步提升。在编程和数学 benchmarks 上刷新多项记录。

适用场景：技术文档分析、实时信息整合、跨模态内容生产。

OpenAI 推出 o4-mini，主要价值在推理效率。在相同推理预算下，代码生成和数学推理表现接近 o3 模型，但推理延迟降低约 80%。支持函数调用和结构化输出，对开发者构建自动化管线友好。

对内容生产的影响：低延迟模型适合实时 agent 工作流，可大幅降低自动化内容生成的成本。

新增 200K token 窗口支持，可直接处理长文档并提取知识图谱。引入 Contextual Safety Filter 增强输出的安全性。逻辑推理和代码生成能力在多项基准测试中提升明显。

长上下文是 Opus 4 最大的差异化优势，适合需要处理数百页技术文档的场景。

Gen-4 新增物理世界理解能力，生成的视频更符合自然规律。支持文本到视频、图像到视频、角色一致性保持三个核心功能。商业用户可定制品牌风格。

对内容创作者的启示：物理理解能力意味着提示词可以更精确描述物体运动轨迹，特别适合教育类和演示类视频。

五、Midjourney v7 全面开放：图像质量接近摄影

v7 采用全新渲染管线，图像质量达到摄影级别。新增四项功能：

– 4:5 竖构图模式

– 文本嵌入功能（图中可生成真实文字）

– 风格迁移

– 角色一致性保持

文本嵌入是 v7 的突破性功能。可在生成图像中写入精确的文字内容，对信息图和可视化内容生产意义重大。

六、Meta Llama 4 Maverick：MoE 架构开源

Meta 开源 235B 参数混合专家模型，推理和创意写作表现接近顶尖商业模型。代码生成通过 HumanEval 基准测试，Apache 2.0 协议。

MoE 架构的优势在于推理成本远低于同级别模型，适合企业自建 AI 内容生产管道。

本周总览

大模型赛道持续加速，Google 和 OpenAI 分别在不同维度推进效率与能力边界。视频生成方向，物理理解成为新的竞争焦点。图像生成领域，Midjourney v7 的文本嵌入功能将开启信息图内容的新范式。

开源端 Llama 4 Maverick 的发布进一步缩小了开源与商业模型的能力差距。

视觉灵感指令

冷蓝色调，银白色光影过渡，未来感构图。主体为数据流与神经网络抽象融合的场景，背景为深蓝色渐变，前景为银色粒子光效。电影级高对比度渲染，适合配科技类周报复排面。

本文由 360 视界·AI 周报 AI 团队编译，数据来源 Gemini 2.5 Pro / o4-mini / Runway Gen-4 官方公告。