Vision Sandbox技能使用说明

subsun 4周前 (03-28) openclaw小龙虾 43 0

视觉沙盒 🔭

利用 Gemini 的原生代码执行能力对图像进行高精度分析。该模型在 Google 托管的沙盒环境中编写并运行 Python 代码,以验证视觉数据,非常适合进行 UI 审核、空间定位和视觉推理。

安装

clawhub install vision-sandbox

使用方法

uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."

模式库

📍 空间定位

要求模型查找特定项目并返回坐标。

  • 提示词示例:"在此截图中定位‘提交’按钮。使用代码执行来验证其中心点,并以 [0, 1000] 的比例返回 [x, y] 坐标。"

🧮 视觉数学

要求模型根据图像进行计数或计算。

  • 提示词示例:"计算列表中项目的数量。如果价格可见,使用 Python 对它们的值进行求和。"

🖥️ UI 审核

检查布局和可读性。

  • 提示词示例:"检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"

🖐️ 计数与逻辑

用代码验证解决视觉计数任务。

  • 提示:"数这只手上有多少根手指。使用代码执行来识别每根手指的边界框并返回总数。"

与 OpenCode 集成

此技能旨在为视觉定位像 OpenCode 这样的自动化编码代理提供支持。

  • 步骤 1:使用vision-sandbox提取 UI 元数据(坐标、尺寸、颜色)。
  • 步骤 2:将 JSON 输出传递给 OpenCode 以生成或修复 CSS/HTML。

配置

  • GEMINI_API_KEY:必需的环境变量。
  • 模型:默认为gemini-3-flash-preview
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏

相关推荐

网友评论

  • (*)

最新评论

用户管理

您好,欢迎到访网站!
    用户注册

上网淘巴领天猫淘宝优惠券,一年省好几千。

广告  ×

您是本站第820271名访客 今日有0篇新文章/评论