网淘吧Visual Components、Flexsim 仿真技术博客 | Python、C#、Delphi xe 机器人编程教程 - 网淘吧

返回首页注册登录用户中心微信

手机版

手机版

Vision Sandbox技能使用说明

2026-03-28 新闻来源：网淘吧围观:86

电脑广告

手机广告

视觉沙盒 🔭

利用 Gemini 的原生代码执行能力对图像进行高精度分析。该模型在 Google 托管的沙盒环境中编写并运行 Python 代码，以验证视觉数据，非常适合进行 UI 审核、空间定位和视觉推理。

安装

clawhub install vision-sandbox

使用方法

uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."

模式库

📍 空间定位

要求模型查找特定项目并返回坐标。

提示词示例："在此截图中定位‘提交’按钮。使用代码执行来验证其中心点，并以 [0, 1000] 的比例返回 [x, y] 坐标。"

🧮 视觉数学

要求模型根据图像进行计数或计算。

提示词示例："计算列表中项目的数量。如果价格可见，使用 Python 对它们的值进行求和。"

🖥️ UI 审核

检查布局和可读性。

提示词示例："检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"

🖐️ 计数与逻辑

用代码验证解决视觉计数任务。

提示："数这只手上有多少根手指。使用代码执行来识别每根手指的边界框并返回总数。"

与 OpenCode 集成

此技能旨在为视觉定位像 OpenCode 这样的自动化编码代理提供支持。

步骤 1：使用vision-sandbox提取 UI 元数据（坐标、尺寸、颜色）。
步骤 2：将 JSON 输出传递给 OpenCode 以生成或修复 CSS/HTML。

配置

GEMINI_API_KEY：必需的环境变量。
模型：默认为gemini-3-flash-preview。

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Gemini Image Gen技能使用说明下一篇：Curl Http技能使用说明

相关文章

上网淘巴领天猫淘宝优惠券，一年省好几千。

广告 ×

您是本站第1124520名访客今日有0篇新文章/评论