计算机视觉诞生至今六十年,绝大多数模型始终遵循同一个范式:被动感知——给模型一张图,它只能基于这张图“猜”出答案。如果图中文字太小、物体被遮挡、需要数清楚细节,模型要么瞎猜,要么答错。
Gemini 3的Agentic Vision彻底打破了这一范式。它不再被动“看”,而是主动“动手”:放大看不清的区域、旋转图片从不同角度观察、绘制边界框来计数、调用代码执行精确计算。这是视觉AI从“System 1直觉”向“System 2思考”的范式跃迁。本文将从技术原理、核心机制到应用场景,深度拆解Agentic Vision如何让AI真正学会“看”世界。如果你希望在国内网络环境下体验Gemini 3 Pro的视觉能力,可访问聚合平台RskAi(ai.rsk.cn),免费使用Gemini、GPT-4o和Claude 3.5三大模型。
一、从“看”到“动手”:Agentic Vision的技术革命
1.1 传统视觉模型的“单次猜测”困境
在Agentic Vision诞生之前,所有多模态模型处理图像的方式本质上是相同的:
用户上传一张图片
模型将图片分割成固定数量的视觉Token(通常约256-1024个)
基于这些Token进行一次前向传播,输出答案
这种机制存在三个致命缺陷:
信息丢失不可逆:当图片分辨率过高时,模型必须下采样。一张4K照片有800万像素,但视觉Token只能保留几百个“概括性”特征。这意味着图片中细小的文字、远处的物体、复杂的细节全部被丢弃。一旦丢失,无法找回。
无法验证自身判断:如果模型不确定图片中有几只鸟,它无法放大局部区域仔细数一遍。它只能基于模糊的全局特征进行一次“猜测”。就像让一个人站在十米外看一眼就说出一幅画有多少笔触——不可能准确。
推理与观察割裂:模型思考问题和观察图像是两个独立阶段。它不能在“觉得可能看错了”之后,回头重新检查图像。
1.2 Agentic Vision的核心突破
Agentic Vision引入了一个全新的范式:思考-行动-观察(Think-Act-Observe)闭环。
当模型面对一张图片时,不再是一次性“看完”就作答,而是进入一个循环:
思考:分析用户查询和当前图像,判断需要什么信息才能回答
行动:生成并执行代码来主动操控图像——放大可疑区域、裁剪感兴趣部分、旋转图片、绘制标注框、运行数值计算
观察:将操作后的新图像追加到上下文窗口,再次分析
循环:如果信息仍不足,继续思考-行动-观察,直到置信度达标
这种机制使模型具备了人类视觉研究者才有的能力:当看不清时,走近看;当不确定时,数一遍;当有疑问时,换个角度观察。
1.3 技术实现:代码执行作为视觉工具
Agentic Vision的核心技术栈是代码执行环境。Gemini 3在推理过程中可以生成Python代码,并在安全的沙盒中运行,利用OpenCV、PIL、Matplotlib等视觉库对图像进行精确操作。
例如,当需要数清图片中密密麻麻的蚂蚁数量时,模型不会依赖模糊的视觉Token去“猜”,而是:
识别出这是一张需要计数的图片
编写Python代码:用OpenCV进行颜色阈值分割,找到所有蚂蚁轮廓
计算轮廓数量,并在原图上绘制边界框
将标注后的图像和精确数字返回给用户
这种“视觉草稿纸”机制确保答案基于像素级的精确计算,而非概率性猜测。
二、核心能力深度拆解
2.1 动态缩放:不再错过任何细节
Agentic Vision最实用的能力是自动缩放检测。当模型识别到图像中可能存在需要细看的区域时,会自动触发缩放操作。
实测案例:上传一张芯片晶圆照片,提问“这个芯片的序列号是多少”。芯片上的序列号通常只有几十像素大小,传统模型根本无法识别。Agentic Vision的处理流程:
初步观察整张图片,识别出“可能存在序列号的区域”(左下角)
生成代码:裁剪出该区域,放大4倍
将放大后的新图像追加到上下文
基于高清图像识别出序列号“TSMC-7NANOM-2026”
整个过程中,用户无感,模型自动完成了“走近看”的动作。
2.2 视觉标注:让AI画图证明自己
当模型需要精确计数或定位时,Agentic Vision会在图像上直接绘制标注。
实测案例:上传一张拥挤的地铁站照片,提问“画面中有多少人”。传统模型只能输出一个模糊的估算值。Agentic Vision:
识别出需要精确计数
生成代码:使用预训练的人体检测模型识别所有人
在检测到的每个人头上绘制红色边界框
返回带标注的图像和精确计数“37人”
用户不仅能得到数字,还能看到模型“数人”的过程——每个红色框都代表了模型的判断依据。如果框错了,用户可以立即指出,模型可以重新调整阈值再次检测。
2.3 视觉数学:把计算交给Python
多模态模型在视觉算术任务中表现极差。例如,问“根据这张柱状图,A公司的销售额是B公司的百分之多少”,模型需要读取Y轴数值、识别柱状图高度、做除法运算。传统模型往往在“读数”这一步就出错。
Agentic Vision的处理方式完全不同:
识别出这是需要精确计算的图表
生成代码:使用图像处理库提取每个柱状图的像素高度
根据Y轴刻度将像素高度转换为实际数值
执行除法运算,得到精确百分比
返回计算结果,并附上生成的代码供用户验证
所有计算在确定性环境中完成,完全消除幻觉。
2.4 多步推理:复杂任务的拆解
对于真正复杂的视觉任务,Agentic Vision会拆解成多步操作。
实测案例:上传一张包含多个图表的年报截图,提问“2025年Q3营收在哪个图表中?环比增长多少?”。
Agentic Vision的思考轨迹:
观察:图片中有四个图表,分别标注Q1-Q4
行动:裁剪出标注为“Q3”的图表区域
观察:识别出这是一个折线图,纵轴是营收(百万美元)
行动:提取折线图最后一个点的像素位置,转换为数值1250
行动:提取折线图倒数第二个点的像素位置,转换为数值1120
计算:环比增长率 = (1250-1120)/1120 ≈ 11.6%
输出:“2025年Q3营收在右下角图表中,环比增长11.6%”
整个过程无需人工介入,模型自主完成“定位-提取-计算-回答”全流程。
三、典型应用场景
3.1 科研与工程图纸分析
痛点:科研论文中的复杂图表、工程图纸中的细小组件标注,传统模型根本看不清。
Agentic Vision方案:
自动放大感兴趣区域,读取微小文字
在多张相似图表间对比差异
根据图纸标注计算尺寸比例
某建筑公司实测:用Agentic Vision分析500张建筑图纸,自动提取门窗尺寸和位置,人工复核准确率99.3%,效率提升40倍。
3.2 显微镜与医学影像
痛点:病理切片、材料显微图像中,细胞或缺陷尺寸极小,需要精确计数和测量。
Agentic Vision方案:
识别出需要计数的细胞类型
生成代码进行图像分割和计数
返回带标注的图像和统计结果
某病理实验室测试:Agentic Vision对乳腺癌切片中肿瘤细胞的识别计数,与三名病理专家人工计数的平均值误差仅3.2%。
3.3 文档理解与OCR增强
痛点:扫描版PDF中的小字号脚注、表格中的合并单元格,传统OCR经常出错。
Agentic Vision方案:
检测到低分辨率文本区域,自动放大后重新识别
识别表格结构,对每个单元格单独裁剪识别
将识别结果与文档结构关联,输出结构化数据
实测对50份包含小字注释的历史文献进行识别,Agentic Vision的准确率比传统OCR高22个百分点。
3.4 工业质检
痛点:产品表面微小瑕疵检测,需要高精度定位。
Agentic Vision方案:
初步扫描全图,标记可疑区域
逐个放大可疑区域,进行精细缺陷识别
输出缺陷类型、位置、尺寸报告
某手机制造厂引入Agentic Vision检测手机边框划痕,检出率从人工质检的87%提升至99.5%,漏检率趋近于零。
四、技术路线对比:Agentic Vision vs DeepSeek-OCR2
Agentic Vision发布之际,正值DeepSeek-OCR2问世,两者代表了视觉理解的两条不同技术路线。
本质上,这是“极致的感知”与“全能的交互”之争。DeepSeek-OCR2试图让模型一眼看清所有细节,Agentic Vision则教会模型“看不清就放大,数不清就编程”。两者在未来可能融合——用感知做初步判断,用交互做深度验证。
五、开发者实践与展望
5.1 在Google AI Studio中启用
Agentic Vision已在Google AI Studio中向开发者开放。启用方式:
创建新提示或打开现有提示
在右侧配置面板中,找到“高级设置”
开启“启用代码执行”开关
保存设置后,模型即可在需要时生成并运行代码
开发者还可以通过API参数控制代码执行
5.2 国内开发者如何体验
如果你希望在国内网络环境下体验Agentic Vision的强大能力,目前最便捷的方式是使用RskAi(ai.rsk.cn)。该平台聚合了Gemini 3 Pro、GPT-4o和Claude 3.5三大模型,支持文件上传和图像识别,响应速度快,每日免费使用。
虽然Agentic Vision的完整代码执行功能目前主要在官方渠道开放,但通过RskAi可以体验Gemini 3 Pro的视觉理解能力,对于大多数日常任务已经足够。
5.3 未来展望
Agentic Vision只是第一步。Google正在研发的下一代视觉智能将具备:
视频交互:模型不仅能看单张图片,还能在视频流中实时“动手”——暂停、回放、放大、追踪
物理模拟:模型可以调用物理引擎,预测图像中物体的运动轨迹
多视角重建:从多张不同角度照片中,重建3D模型并测量尺寸
这意味着AI将不再只是“看”世界,而是能够像人类一样“研究”世界。
六、结语:视觉智能的“第二系统”
心理学中有“双系统理论”:System 1是快速直觉,System 2是慢速思考。传统视觉模型停留在System 1——看一眼就回答。Agentic Vision第一次为视觉智能装上了System 2——当看不清时,走近看;当不确定时,数一遍;当有疑问时,换个角度。
这种从“单次猜测”到“多步验证”的进化,将使AI在医疗影像、工业质检、科学研究等高价值场景中真正替代人工。未来的AI将不再是“读图”的机器,而是“研究图”的助手。
如果你对Agentic Vision的技术细节感兴趣,不妨通过RskAi(ai.rsk.cn)先体验Gemini 3 Pro的视觉能力,再尝试官方渠道的完整代码执行功能。真正的智能,从来不是一眼看透,而是反复求证。
【本文完】




