Vision Sandbox
2026-03-28
新闻来源:网淘吧
围观:13
电脑广告
手机广告
视觉沙盒 🔭
利用 Gemini 的原生代码执行能力对图像进行高精度分析。该模型在 Google 托管的沙盒环境中编写并运行 Python 代码,以验证视觉数据,非常适合进行 UI 审核、空间定位和视觉推理。
安装
clawhub install vision-sandbox
使用方法
uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."
模式库
📍 空间定位
要求模型查找特定项目并返回坐标。
- 提示词示例:"在此截图中定位‘提交’按钮。使用代码执行来验证其中心点,并以 [0, 1000] 的比例返回 [x, y] 坐标。"
🧮 视觉数学
要求模型根据图像进行计数或计算。
- 提示词示例:"计算列表中项目的数量。如果价格可见,使用 Python 对它们的值进行求和。"
🖥️ UI 审核
检查布局和可读性。
- 提示词示例:"检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"
🖐️ 计数与逻辑
用代码验证解决视觉计数任务。
- 提示:"数这只手上有多少根手指。使用代码执行来识别每根手指的边界框并返回总数。"
与 OpenCode 集成
此技能旨在为视觉定位像 OpenCode 这样的自动化编码代理提供支持。
- 步骤 1:使用
vision-sandbox提取 UI 元数据(坐标、尺寸、颜色)。 - 步骤 2:将 JSON 输出传递给 OpenCode 以生成或修复 CSS/HTML。
配置
- GEMINI_API_KEY:必需的环境变量。
- 模型:默认为
gemini-3-flash-preview。
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Gemini Image Gen
下一篇:Curl Http


微信扫一扫,打赏作者吧~