新闻简报

谷歌AI路线图曝光:Gemini全模态转型,突破无限上下文需新架构

近日,谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会上透露了Gemini模型的未来发展方向。根据路线图,谷歌正全力推进AI技术的多模态整合与架构创新,其中关键点包括:

  1. 全模态能力升级
  • 已实现图像+音频原生支持
  • 视频处理将成为下一阶段重点
  • 扩散模型(Gemini Diffusion)实验取得进展,吞吐速率达每秒1000+token
  1. 智能体转型
  • 模型将从被动工具转向主动代理
  • 强化自主决策和任务执行能力
  • 工具调用能力显著提升
  1. 架构突破
  • 承认当前Transformer注意力机制存在局限
  • 需全新架构实现"无限上下文"处理
  • 正在研发下一代核心架构解决方案
  1. 产品生态
  • AI Studio将转型为开发者平台
  • 即将推出改进版嵌入模型
  • 深度研究API和Veo3技术将开放

行业分析显示,谷歌通过整合DeepMind资源,在过去一年实现了AI推理量50倍增长。Gemini 2.5 Pro在多项基准测试中领先,标志着谷歌在AI竞赛中重新占据主动地位。未来,谷歌计划通过"前沿协作"模式,持续推动AI技术边界。