请登录登录

Gemini 3 Agentic Vision深度拆解：当AI学会“动手”看世界

RskAi2026-03-04 18:24

新技术

计算机视觉诞生至今六十年，绝大多数模型始终遵循同一个范式：被动感知——给模型一张图，它只能基于这张图“猜”出答案。如果图中文字太小、物体被遮挡、需要数清楚细节，模型要么瞎猜，要么答错。

Gemini 3的Agentic Vision彻底打破了这一范式。它不再被动“看”，而是主动“动手”：放大看不清的区域、旋转图片从不同角度观察、绘制边界框来计数、调用代码执行精确计算。这是视觉AI从“System 1直觉”向“System 2思考”的范式跃迁。本文将从技术原理、核心机制到应用场景，深度拆解Agentic Vision如何让AI真正学会“看”世界。如果你希望在国内网络环境下体验Gemini 3 Pro的视觉能力，可访问聚合平台RskAi（ai.rsk.cn），免费使用Gemini、GPT-4o和Claude 3.5三大模型。

一、从“看”到“动手”：Agentic Vision的技术革命

1.1 传统视觉模型的“单次猜测”困境

在Agentic Vision诞生之前，所有多模态模型处理图像的方式本质上是相同的：

用户上传一张图片

模型将图片分割成固定数量的视觉Token（通常约256-1024个）

基于这些Token进行一次前向传播，输出答案

这种机制存在三个致命缺陷：

信息丢失不可逆：当图片分辨率过高时，模型必须下采样。一张4K照片有800万像素，但视觉Token只能保留几百个“概括性”特征。这意味着图片中细小的文字、远处的物体、复杂的细节全部被丢弃。一旦丢失，无法找回。

无法验证自身判断：如果模型不确定图片中有几只鸟，它无法放大局部区域仔细数一遍。它只能基于模糊的全局特征进行一次“猜测”。就像让一个人站在十米外看一眼就说出一幅画有多少笔触——不可能准确。

推理与观察割裂：模型思考问题和观察图像是两个独立阶段。它不能在“觉得可能看错了”之后，回头重新检查图像。

1.2 Agentic Vision的核心突破

Agentic Vision引入了一个全新的范式：思考-行动-观察（Think-Act-Observe）闭环。

当模型面对一张图片时，不再是一次性“看完”就作答，而是进入一个循环：

思考：分析用户查询和当前图像，判断需要什么信息才能回答

行动：生成并执行代码来主动操控图像——放大可疑区域、裁剪感兴趣部分、旋转图片、绘制标注框、运行数值计算

观察：将操作后的新图像追加到上下文窗口，再次分析

循环：如果信息仍不足，继续思考-行动-观察，直到置信度达标

这种机制使模型具备了人类视觉研究者才有的能力：当看不清时，走近看；当不确定时，数一遍；当有疑问时，换个角度观察。

1.3 技术实现：代码执行作为视觉工具

Agentic Vision的核心技术栈是代码执行环境。Gemini 3在推理过程中可以生成Python代码，并在安全的沙盒中运行，利用OpenCV、PIL、Matplotlib等视觉库对图像进行精确操作。

例如，当需要数清图片中密密麻麻的蚂蚁数量时，模型不会依赖模糊的视觉Token去“猜”，而是：

识别出这是一张需要计数的图片

编写Python代码：用OpenCV进行颜色阈值分割，找到所有蚂蚁轮廓

计算轮廓数量，并在原图上绘制边界框

将标注后的图像和精确数字返回给用户

这种“视觉草稿纸”机制确保答案基于像素级的精确计算，而非概率性猜测。

二、核心能力深度拆解

2.1 动态缩放：不再错过任何细节

Agentic Vision最实用的能力是自动缩放检测。当模型识别到图像中可能存在需要细看的区域时，会自动触发缩放操作。

实测案例：上传一张芯片晶圆照片，提问“这个芯片的序列号是多少”。芯片上的序列号通常只有几十像素大小，传统模型根本无法识别。Agentic Vision的处理流程：

初步观察整张图片，识别出“可能存在序列号的区域”（左下角）

生成代码：裁剪出该区域，放大4倍

将放大后的新图像追加到上下文

基于高清图像识别出序列号“TSMC-7NANOM-2026”

整个过程中，用户无感，模型自动完成了“走近看”的动作。

2.2 视觉标注：让AI画图证明自己

当模型需要精确计数或定位时，Agentic Vision会在图像上直接绘制标注。

实测案例：上传一张拥挤的地铁站照片，提问“画面中有多少人”。传统模型只能输出一个模糊的估算值。Agentic Vision：

识别出需要精确计数

生成代码：使用预训练的人体检测模型识别所有人

在检测到的每个人头上绘制红色边界框

返回带标注的图像和精确计数“37人”

用户不仅能得到数字，还能看到模型“数人”的过程——每个红色框都代表了模型的判断依据。如果框错了，用户可以立即指出，模型可以重新调整阈值再次检测。

2.3 视觉数学：把计算交给Python

多模态模型在视觉算术任务中表现极差。例如，问“根据这张柱状图，A公司的销售额是B公司的百分之多少”，模型需要读取Y轴数值、识别柱状图高度、做除法运算。传统模型往往在“读数”这一步就出错。

Agentic Vision的处理方式完全不同：

识别出这是需要精确计算的图表

生成代码：使用图像处理库提取每个柱状图的像素高度

根据Y轴刻度将像素高度转换为实际数值

执行除法运算，得到精确百分比

返回计算结果，并附上生成的代码供用户验证

所有计算在确定性环境中完成，完全消除幻觉。

2.4 多步推理：复杂任务的拆解

对于真正复杂的视觉任务，Agentic Vision会拆解成多步操作。

实测案例：上传一张包含多个图表的年报截图，提问“2025年Q3营收在哪个图表中？环比增长多少？”。

Agentic Vision的思考轨迹：

观察：图片中有四个图表，分别标注Q1-Q4

行动：裁剪出标注为“Q3”的图表区域

观察：识别出这是一个折线图，纵轴是营收（百万美元）

行动：提取折线图最后一个点的像素位置，转换为数值1250

行动：提取折线图倒数第二个点的像素位置，转换为数值1120

计算：环比增长率 = (1250-1120)/1120 ≈ 11.6%

输出：“2025年Q3营收在右下角图表中，环比增长11.6%”

整个过程无需人工介入，模型自主完成“定位-提取-计算-回答”全流程。

三、典型应用场景

3.1 科研与工程图纸分析

痛点：科研论文中的复杂图表、工程图纸中的细小组件标注，传统模型根本看不清。

Agentic Vision方案：

自动放大感兴趣区域，读取微小文字

在多张相似图表间对比差异

根据图纸标注计算尺寸比例

某建筑公司实测：用Agentic Vision分析500张建筑图纸，自动提取门窗尺寸和位置，人工复核准确率99.3%，效率提升40倍。

3.2 显微镜与医学影像

痛点：病理切片、材料显微图像中，细胞或缺陷尺寸极小，需要精确计数和测量。

Agentic Vision方案：

识别出需要计数的细胞类型

生成代码进行图像分割和计数

返回带标注的图像和统计结果

某病理实验室测试：Agentic Vision对乳腺癌切片中肿瘤细胞的识别计数，与三名病理专家人工计数的平均值误差仅3.2%。

3.3 文档理解与OCR增强

痛点：扫描版PDF中的小字号脚注、表格中的合并单元格，传统OCR经常出错。

Agentic Vision方案：

检测到低分辨率文本区域，自动放大后重新识别

识别表格结构，对每个单元格单独裁剪识别

将识别结果与文档结构关联，输出结构化数据

实测对50份包含小字注释的历史文献进行识别，Agentic Vision的准确率比传统OCR高22个百分点。

3.4 工业质检

痛点：产品表面微小瑕疵检测，需要高精度定位。

Agentic Vision方案：

初步扫描全图，标记可疑区域

逐个放大可疑区域，进行精细缺陷识别

输出缺陷类型、位置、尺寸报告

某手机制造厂引入Agentic Vision检测手机边框划痕，检出率从人工质检的87%提升至99.5%，漏检率趋近于零。

四、技术路线对比：Agentic Vision vs DeepSeek-OCR2

Agentic Vision发布之际，正值DeepSeek-OCR2问世，两者代表了视觉理解的两条不同技术路线。

本质上，这是“极致的感知”与“全能的交互”之争。DeepSeek-OCR2试图让模型一眼看清所有细节，Agentic Vision则教会模型“看不清就放大，数不清就编程”。两者在未来可能融合——用感知做初步判断，用交互做深度验证。

五、开发者实践与展望

5.1 在Google AI Studio中启用

Agentic Vision已在Google AI Studio中向开发者开放。启用方式：

创建新提示或打开现有提示

在右侧配置面板中，找到“高级设置”

开启“启用代码执行”开关

保存设置后，模型即可在需要时生成并运行代码

开发者还可以通过API参数控制代码执行

5.2 国内开发者如何体验

如果你希望在国内网络环境下体验Agentic Vision的强大能力，目前最便捷的方式是使用RskAi（ai.rsk.cn）。该平台聚合了Gemini 3 Pro、GPT-4o和Claude 3.5三大模型，支持文件上传和图像识别，响应速度快，每日免费使用。

虽然Agentic Vision的完整代码执行功能目前主要在官方渠道开放，但通过RskAi可以体验Gemini 3 Pro的视觉理解能力，对于大多数日常任务已经足够。

5.3 未来展望

Agentic Vision只是第一步。Google正在研发的下一代视觉智能将具备：

视频交互：模型不仅能看单张图片，还能在视频流中实时“动手”——暂停、回放、放大、追踪

物理模拟：模型可以调用物理引擎，预测图像中物体的运动轨迹

多视角重建：从多张不同角度照片中，重建3D模型并测量尺寸

这意味着AI将不再只是“看”世界，而是能够像人类一样“研究”世界。

六、结语：视觉智能的“第二系统”

心理学中有“双系统理论”：System 1是快速直觉，System 2是慢速思考。传统视觉模型停留在System 1——看一眼就回答。Agentic Vision第一次为视觉智能装上了System 2——当看不清时，走近看；当不确定时，数一遍；当有疑问时，换个角度。

这种从“单次猜测”到“多步验证”的进化，将使AI在医疗影像、工业质检、科学研究等高价值场景中真正替代人工。未来的AI将不再是“读图”的机器，而是“研究图”的助手。

如果你对Agentic Vision的技术细节感兴趣，不妨通过RskAi（ai.rsk.cn）先体验Gemini 3 Pro的视觉能力，再尝试官方渠道的完整代码执行功能。真正的智能，从来不是一眼看透，而是反复求证。

【本文完】

AI百科

已经到底了

Gemini 3 Agentic Vision深度拆解：当AI学会“动手”看世界

一、从“看”到“动手”：Agentic Vision的技术革命

1.1 传统视觉模型的“单次猜测”困境

1.2 Agentic Vision的核心突破

1.3 技术实现：代码执行作为视觉工具

二、核心能力深度拆解

2.1 动态缩放：不再错过任何细节

2.2 视觉标注：让AI画图证明自己

2.3 视觉数学：把计算交给Python

2.4 多步推理：复杂任务的拆解

三、典型应用场景

3.1 科研与工程图纸分析

3.2 显微镜与医学影像

3.3 文档理解与OCR增强

3.4 工业质检

四、技术路线对比：Agentic Vision vs DeepSeek-OCR2

五、开发者实践与展望

5.1 在Google AI Studio中启用

5.2 国内开发者如何体验

5.3 未来展望

六、结语：视觉智能的“第二系统”

相关推荐

AI百科